Согласие между аннотаторами при аннотировании разговорной речи: применение uα-коэффициентов к сегментации дискурса

Обложка

Цитировать

Полный текст

Аннотация

Благодаря появлению баз данных корпусная лингвистика становится привычным инструментом для большинства лингвистов. Именно поэтому аннотирование корпусов приобретает все большую значимость. Пользователям корпусов нужны не только сырые, но и аннотированные данные, т. е. размеченные с применением протоколов аннотирования и методов синтаксического анализа (парсинга). Одна из проблем, с которой сталкиваются исследователи при аннотировании корпуса, - это проблема надежности, то есть возможности воспроизведения результатов исследования независимыми исследователями. Согласие между аннотаторами (IAA) - это методика оценивания вероятности того, что, применяя один и тот же протокол, разные аннотаторы получат одинаковые результаты. Для измерения согласия используются разные статистические показатели. Представленное исследование впервые применяет IAA к модели сегментации дискурса Valencia Español Coloquial (Val.Es.Co.), предназначенной для сегментации и разметки единиц устного разговорного дискурса. В отличие от преимущественного большинства исследований IAA, в которых только маркируется набор заранее определенных единиц, в данном исследовании IAA применяется в рамках Val.Es.Co.-протокола, предусматривающего более сложный двухступенчатый процесс: во-первых, речевой континуум разделяется на дискурсивные единицы; во-вторых, осуществляется разметка дискурсивных единиц. Статистические показатели u α -семейства Криппендорфа (Krippendorff et al. 2016) позволяют измерять IAA как в задачах сегментации, так и в задачах разметки. Три эксперта-аннотатора разделили спонтанную речь на субакты, минимальные дискурсивные единицы Val.Es.Co.-модели и разметили полученные единицы в соответствии с набором из 10 подкатегорий. u α-коэффициенты Криппендорфа применялись в нескольких экспериментах, чтобы выяснить, повлияло ли включение большего числа категорий и их различие на результаты IAA. Мы получили высокие уровни IAA, особенно в аннотации процедурных категорий субактов, где результаты достигают коэффициентов выше 0,8. Таким образом, исследование подтверждает, что Val.Es.Co.-модель является оптимальным методом для полной сегментации речи на прагматически мотивированные дискурсивные единицы.

Об авторах

Сальвадор Понс Бордериа

Валенсийский университет

Автор, ответственный за переписку.
Email: salvador.pons@uv.es
ORCID iD: 0000-0001-5788-5506

профессор испанской лингвистики Валенсийского университета (Испания), член исследовательской группы Val.Es.Co. Его научные интересы включают разговорную речь, апроксимативы, а также синхроническое и диахроническое описание дискурсивных маркеров.

Валенсия, Испания

Елена Паскуаль Алиага

Валенсийский университет

Email: elena.pascual@uv.es
ORCID iD: 0000-0002-1912-4957

доктор испанской лингвистики, член исследовательской группы Val.Es.Co. В сферу ее научных интересов входят субструктурные элементы, а также факторы, мешающие плавности устной речи.

Валенсия, Испания

Список литературы

  1. Albelda Marco, Marta & Pedro Gras Manzano. 2011. La partícula escalar ni en español coloquial. In González Ruiz, Ramón & Carmen Llamas Saíz (eds.). Gramática y discurso. Nuevas aportaciones sobre partículas discursivas del español, 11-31. Pamplona: Eunsa
  2. Albelda Marco, Marta. 2007. La intensificación como categoría pragmática: revisión y propuesta. Bern: Peter Lang
  3. Artstein, Ron & Poesio, Massimo. 2005. Bias decreases in proportion to the number of annotators. In Rogers, James (ed.), Proceedings of FG-MoL 2005: The 10th conference on Formal Grammar and The 9th Meeting on Mathematics of Language Edinburgh, 139-148. Stanford: CSLI Publications [online version: http://web.stanford.edu/group/ cslipublications/cslipublications/FG/2005/FGMoL05.pdf (accessed December 2020)]
  4. Artstein, Ron & Poesio, Massimo. 2008. Inter-coder agreement for Computational Linguistics. Computational Linguistics 34 (4), 556-596.
  5. Artstein, Ron. 2017. Inter-annotator agreement. In Ide, Nancy & Pustejovsky, James (eds.), Handbook of Linguistic Annotation, 297-313. Dordrecht: Springer.
  6. Bello, Andrés. 1847. Gramática de la lengua castellana destinada al uso de los americanos. Madrid: Arco Libros.
  7. Blanche-Benveniste, Claude. & Jeanjean, Colette. 1987. Le français parlé. Didier Erudition: Paris.
  8. Briz, A. & Val.Es.Co. Group. 2003. Un sistema de unidades para el estudio del lenguaje coloquial. Oralia 6. 7-61.
  9. Briz, A. 1998. El español coloquial en la conversación. Esbozo de pragmagramática. Barcelona: Ariel
  10. Briz, Antonio & Pons Bordería, Salvador. 2010. Unidades, marcadores discursivos y posición. In Loureda Lamas, Óscar & Acín Villa, Esperanza (eds.), Los Estudios Sobre Marcadores del Discurso en Español, Hoy, 327-358. Madrid: Arco Libros
  11. Briz, Antonio. 2011. La subordinación sintáctica desde una teoría de unidades del discurso: el caso de las llamadas causales de la enunciación. In Bustos, J. et al. (coord.): Sintaxis y análisis del discurso hablado en español. Homenaje a Antonio Narbona. Sevilla: Universidad de Sevilla (I). 137-154
  12. Cabedo Nebot, Adrián & Salvador Pons Bordería. 2013. Corpus Val.Es.Co. 2.0. http://www.valesco.es/?q=corpus (accessed December 2020)
  13. Carletta, Jean. 1996. Assessing agreement on classification tasks: The kappa statistic, Computational Linguistics 22 (2), 249-254
  14. Carlson, Lynn, Marcu, Daniel & Okurowski, Mary Ellen. 2003a. Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory, In van Kuppevelt, Jan & Smith, Ronnie W. (eds.), Current and New Directions in Discourse and Dialogue, Springer, Dordrecht, 85-112
  15. Carlson, Lynn, Marcu, Daniel & Okurowski, Mary Ellen. 2003b. Building a discourse-tagged corpus in the framework of rhetorical structure theory. In Proceedings of the Second SIGdial Workshop on Discourse and Dialogue. https://www.aclweb.org/anthology/ W01-1605.pdf (accessed December 2020)
  16. CGuetzkow, Harold. 1950. Unitizing and categorizing problems in coding qualitative data. Journal of Clinical Psychology 6 (1). 47-58.
  17. Cohen, Jacob. 1960. A coefficient of agreement for nominal scales. Educational and Psychological Measurement 20 (1). 37-46.
  18. Cohen, Jacob. 1968. Weighted Kappa: Nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin 70 (4). 213-220.
  19. Crible, Ludivine & Degand, Liesbeth 2019a. Domains and Functions: A Two-Dimensional Account of Discourse Markers, Discours, 24. http://journals.openedition.org/ discours/9997. (accessed December 2020)
  20. Crible, Ludivine & Degand, Liesbeth 2019b. Reliability vs. granularity in discourse annotation: What is the trade-off? Corpus Linguistics and Linguistic Theory 15 (1). 71-99
  21. Crible, Ludivine & Pascual, Elena. 2020. Combinations of discourse markers with repairs and repetitions in English, French and Spanish. Journal of Pragmatics 156. 54-67. DOI: https://doi.org/10.1016/j.pragma.2019.05.002. (accessed December 2020)
  22. Degand, Liesbeth & Simon, Anne-Catherine. 2009a. Minimal discourse units in spoken French: On the role of syntactic and prosodic units in discourse segmentation. Discours 4. DOI: http://discours.revues.org/5852 (accessed December 2020)
  23. Degand, Liesbeth & Simon, Anne-Catherine. 2009b. Mapping prosody and syntax as discourse strategies: How Basic Discourse Units vary across genres. In Barth-Weingarten, Dagmar, Dehé, Nicole & Wichmann, Anne (eds.), Where prosody meets pragmatics: research at the interface, 79-105. Bingley: Emerald
  24. Degand, Liesbeth & Simon, Anne-Catherine. 2011. L’analyse en unités discursives de base: pourquoi et comment? Langue française 170. 45-59
  25. Estellés Arguedas, Maria. 2011. Gramaticalización y paradigmas: un estudio a partir de los denominados marcadores de digresión en español. Bern: Peter Lang
  26. Fleiss, Joseph L. 1971. Measuring nominal scale agreement among many raters. Psychological Bulletin, 76 (5). 378-382
  27. Grisot, Cristina. 2015. Temporal Reference: Empirical and Theoretical Perspectives. Converging Evidence from English and Romance. Geneva: University of Geneva. PhD Dissertation
  28. Grisot, Cristina. 2017. A quantitative approach to conceptual, procedural and pragmatic meaning: Evidence from inter-annotator agreement. Journal of Pragmatics 117. 245-263
  29. Groupe de Fribourg (A. Berrendonner, dir.) 2012. Grammaire de la période, Berne: Peter Lang
  30. Grupo Val.Es.Co. 2014. Las unidades del discurso oral. La propuesta Val.Es.Co. de segmentación de la conversación (coloquial). Estudios de Lingüística del Español 35 (1). 11-71. http://infoling.org/elies/35/elies35.1-2.pdf. (accessed December 2020)
  31. Krippendorff, Klaus, Mathet, Yann, Bouvry, Stéphane & Widlöcher, Antoine. 2016. On the reliability of unitizing textual continua: Further developments. Quality & Quantity: International Journal of Methodology 50. 2347-2364
  32. Krippendorff, Klaus. 1970. Bivariate agreement coefficients for reliability of data. In Borgatta, Edith R. and Bohrnstedt, George W. (eds.). Sociological Methodology, vol. 2, Jossey-Bass Inc., San Francisco, 139-150
  33. Krippendorff, Klaus. 1995. On the Reliability of Unitizing Continuous Data. Sociological Methodology 25. 47-76
  34. Krippendorff, Klaus. 2013 [1980]. Content Analysis: An Introduction to Its Methodology. 3rd. edition. Thousand Oaks (California): ASGE Publications Inc
  35. Latorre, Lidia. 2017. La unidad mínima en la conversación coloquial: delimitación y cuantificación. Valencia: Universidad de Valencia. Master’s dissertation, unpublished
  36. Marcu, Daniel, Amorrortu, Estíbaliz, & Romera, Magdalena. 1999. Experiments in constructing a corpus of discourse trees. In Walker, Marilyn. (ed.), Towards Standards and Tools for Discourse Tagging (Proceedings of the ACL’99 Workshop, College Park, Maryland). New Brunswick: Association for Computational Linguistics 48-57
  37. Miltsakaki, Eleni, Prasad, Rashmi, Joshi, Aravind & Webber, Bonnie. 2004. Annotating discourse connectives and their arguments. In Proceedings of the Workshop Frontiers in Corpus Annotation at HLT-NAACL Boston, Massachusetts. 9-16. https://www.aclweb.org/anthology/W04-2703/ (accessed December 2020)
  38. Mírovský, Jiri, Mladová, Lucie & Zikánová, Sárka. 2010. Connective-based measuring of the inter-annotator agreement in the annotation of discourse in PDT. In Huang, Chu Ren & Jurafsky, Dan. (eds.), Proceedings of the 23rd International Conference on Computational Linguistics: Posters Volume (COLING '10). Beijin: Chinese Information Processing Society of China and Association for Computational Linguistics. 775-781. https://dl.acm.org/doi/10.5555/1944566.1944655 (accessed December 2020)
  39. Morel, Mary-Annick & Danon-Boileau, Laurent. 1998. Grammaire de l’intonation. L’exemple du français. Paris: Ophrys
  40. Narbona, Antonio. 1986. Problemas de sintaxis coloquial andaluza. Revista Española de Lingüística 16 (2). 229-276
  41. Narbona, Antonio. 1992. Hacia una sintaxis del español coloquial. In Congreso de la Lengua Española (1992, Sevilla), Instituto Cervantes, 721-740. https://idus.us.es/xmlui/handle/ 11441/29504. (accessed December 2020)
  42. Narbona, Antonio. 2012. Los estudios sobre el español coloquial y la lingüística. Revista Española de Lingüística 42 (2). 5-32
  43. Pascual Aliaga, Elena. 2018. Análisis prosódico de las estructuras truncadas en la conversación coloquial española: funciones de formulación y atenuación. In García Ramón, Amparo & Soler Bonafont, María Amparo (eds.). ELUA: Estudios de antenuación en el discurso, Anexo IV, 57-84
  44. Pascual, Elena. 2015a. Aproximaciones a la caracterización prosódica de los subactos, la unidad discursiva mínima del sistema Val.Es.Co. In Cabedo, A. (ed.), Perspectivas actuales en el análisis fónico del habla. Tradición y avances en la fonética experimental. Annex 7 of Normas. Revista de Estudios Lingüísticos Hispánicos. 137-150
  45. Pascual, Elena. 2015b. Aproximación a la segmentación del subacto en la conversación coloquial española. In Henter, Sara, Izquierdo, Silvia and Muñoz, Rebeca (eds.), Estudios de pragmática y traducción. Murcia: EDITUM. 73-102
  46. Pascual, Elena. 2020. Los truncamientos en la conversación coloquial. Estudio de las huellas de formulación discursiva desde un modelo de unidades de lo oral. Valencia: Universidad de Valencia. PhD Dissertation
  47. Pons Bordería, Salvador & Maria Estellés Arguedas. 2009. Expressing digression linguistically: Do digressive markers exist? Journal of Pragmatics 41 (5). 921-993
  48. Pons Bordería, Salvador (ed.). 2014. Discourse Segmentation in Romance Languages. Amsterdam/Philadelphia: John Benjamins
  49. Pons Bordería, Salvador. 2008. Gramaticalización por tradiciones discursivas: El caso de ‘esto es’. In Kabatek, Johannes (ed.). Sintaxis histórica del español y cambio lingüístico: Nuevas perspectivas desde las Tradiciones Discursivas, 249-274. Madrid: Iberoamericana
  50. Pons Bordería, Salvador. 2016. Cómo dividir una conversación en actos y subactos. In Bañón Hernández, Antonio Miguel, Espejo Muriel, María del Mar, Herrero Muñoz-Cobo, Bárbara & López Cruces, Luis. Oralidad y análisis del discurso: homenaje a Luis Cortés Rodríguez, 545-566. Almería: Universidad de Almería
  51. Prasad, Rashni, Dinesh, Nikil, Lee, Alan, Miltsakaki, Elena, Robaldo, Livio, Joshi, Aravind & Webber, Bonnie. 2008. The Penn Discourse Treebank 2.0. In Calzolari, Nicoletta, Choukri, Khalid, Maegaard, Bente, Mariani, Joseph, Odijk, Jan & Tapias, Daniel. (eds.), Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08), Marrakech, Morocco. 2961-2968. http://www.lrec-conf.org/proceedings/ lrec2008/pdf/754_paper.pdf. (accessed December 2020)
  52. Prasad, Rashni, Webber, Bonnie, Lee, Alan & Joshi, Aravind. 2019. The Penn Discourse Treebank 3.0. LDC2019T05. Philadelphia: Linguistic Data Consortium. https://catalog.ldc.upenn.edu/LDC2019T05#. (accessed December 2020)
  53. Riou, M. 2015. A methodology for the identification of topic transitions in interaction. Discours, 16. http://journals.openedition.org/discours/8997. (accessed December 2020).
  54. Roulet, Eddy et al. 1985. L'articulation du discours en français contemporain, Berne: Peter Lang.
  55. Roulet, Eddy, Fillietaz, Laurent and Grobet, Anne. 2001. Un modèle et un instrument d'analyse de l'organisation du discours. Berne: Peter Lang.
  56. Roulet, Eddy. 1991. Vers une approche modulaire de l’analyse du discours. Cahiers de Linguistique Française 12. 53-81.
  57. Rysová, Magdaléna, Pavlína Synková, Jiří Mírovský, Eva Hajičová, Anna Nedoluzhko, Radek Ocelák, Jiří Pergler, Lucie Poláková, Veronika Scheller, Jana Zdeňková & Šárka Zikánová. 2016. Prague Discourse Treebank 2.0. Data/software, ÚFAL MFF UK, Prague, Czech Republic. (http://hdl.handle.net/11234/1-1905, accessed December 2020)
  58. Sacks, Harvey, Schegloff, Emanuel A. & Gail Jefferson. 1974. A Simplest Systematics for the Organization of Turn-Taking for Conversation. Language 50 (4). 696-635
  59. Salameh Jiménez, Shima, Estellés Arguedes, Maria & Pons Bordería, Salvador. 2018. Beyond the notion of periphery: An account of polyfunctional discourse markers within the Val.Es.Co. model of discourse segmentation. In Beeching, Kate, Ghezzi, Chiara & Molinelli, Piera (eds.). Positioning the Self and Others. Linguistic perspectives. Amsterdam/Philadelphia: John Benjamins, 105-125
  60. Salameh Jiménez, Shima. 2021. Reframing Reformulation: A Theoretical-Experimental Approach Evidence from the Spanish Discourse Marker “o sea”. Bern: Peter Lang.
  61. Sanders, Ted, Spooren, Wilbert & Leo Noordman. 1992. Toward a taxonomy of coherence relations. Discourse Processes 15. 1-35.
  62. Sanders, Ted, Spooren, Wilbert & Leo Noordman. 1993. Coherence relations in a cognitive theory of discourse representation. Cognitive Linguistics 4 (2). 93-133.
  63. Scholman, Merel, Jacqueline Evers-Vermeul & Ted Sanders. 2016. A step-wise approach to discourse annotation: towards a reliable categorization of coherence relations. Dialogue & Discourse 7 (2). 1-28
  64. Scott, William A. 1955. Reliability of content analysis: The case of nominal scale coding. Public Opinion Quarterly 19 (3). 321-325.
  65. Sinclair, John McHardy & Malcom Coulthard. 1975. Toward an Analysis of Discourse: The English used by Teachers and Pupils. Oxford: Oxford University Press.
  66. Sornicola, Rosana. 1981. Sul parlato. Bologna: Il mulino.
  67. Spooren, W. & Degand, L. 2010. Coding coherence relations: Reliability and validity. Corpus Linguistics and Linguistic Theory 6 (2). 241-266.
  68. Stati, Sorin. 1990. Le transphrastique. Paris: Presses Universitaires de France.
  69. Van Dijk, Teun A. 1977. Text and context: Explorations in the semantics and pragmatics of discourse. London: Logman.
  70. van Enschot, Renske, Spooren, Wilbert, van den Bosch, Antal, Burgers, Christian, Degand, Liesbeth, Evers-Vermeul, Jacqueline, Kunneman, Florian, Liebrecht, Christine, Linders, Yvette & Maes, Alfons. In press. Taming our wild data: On intercoder reliability in discourse research. Dialogue & Discourse
  71. Wilson, Deirdre. 2011. The conceptual-procedural distinction: Past, present and future. In: Escandell-Vidal, Victoria, Leonetti, Manuel & Ahern, Aoife (eds.). Procedural Meaning: Problems and Perspectives, 1-31. Leiden, The Netherlands: Brill
  72. Zufferey, Sandrine & Andrea Popescu-Belis. 2004. Towards Automatic Identification of discourse markers in dialogs: The case of like. In Strube, Michael & Candy Sidner (eds.). 5th SIGdial Workshop on Discourse and Dialogue. Proceedings of the Workshop, Cambridge, Massachusetts. East Stroudsbur: Association for Computational Linguistics. https://www.aclweb.org/anthology/W04-2313.pdf (accessed December 2020)

© Понс Бордериа С., Паскуаль Алиага Е., 2021

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах