Verb database: Structure, clusters and options

Cover Page

Cite item

Abstract

The content and volume of language corpora provide an opportunity to obtain reliable information about the real use of a particular linguistic unit. Nowadays, there is a large number of corpora in different languages, their formation technologies are being improved. Nevertheless, some problems and limitations arise when using these resources in comparative studies. Corpora users need to work with annotated data submitted to tagging through annotation protocols. The article presents the structure and functionality of the supracorpora verb database (SVD) developed on the basis of a parallel Russian-French subcorpus of the Russian National Corpus (RNC) and reveals the difference in their potentials. The described database is a pilot version of the final software, which is currently under development and is being tested. It consists of several clusters focused on solving such linguistic tasks as studying the grammatical semantics specifics and the distribution of verb forms in Russian and French; identifying the polysemantic structure in the two languages, which in turn verifies the understanding of the linguistic worldview of the speakers of Russian and French. It has been found that the mechanism of functioning of SVD cluster formations allows us to study both individual characteristics of verbs and the semantics of verbal lexemes and collocations. The manual annotation enables users to identify the systematic asymmetry of verb forms and cases of contextual and low-frequency asymmetry. Thus, SVD can be used in language pedagogy, teaching and studying discursive grammar, as well as the analysis of translation models variability.

About the authors

Nadezhda V. Buntman

Lomonosov Moscow State University

Email: nabunt@hotmail.com
ORCID iD: 0009-0008-4945-1028

Doctor of Philology and Associate Professor of the Department of French at the Faculty of Foreign Languages and Regional Studies, Lomonosov Moscow State University. Her areas of research cover comparative and corpus linguistics, literary translation, stylistics of the French language and modern French literature. She is a translation award winner and a Cavalier of the French Order of Academic Palms.

Moscow, Russia

Anna S. Borisova

RUDN University

Author for correspondence.
Email: borisova-as@rudn.ru
ORCID iD: 0000-0002-7395-7028

Doctor of Philology and Associate Professor of the Department of Foreign Languages, RUDN University. Her areas of research embrace translation studies, cognitive linguistics and discourse analysis.

Moscow, Russia

Yulia A. Darovskikh

Lomonosov Moscow State University

Email: juliadarov@mail.ru
ORCID iD: 0009-0007-0606-1161

PhD student and Lecturer of the Department of Foreign Languages at the Faculty of History, Lomonosov Moscow State University. Her research interests include comparative aspectology, corpus research and methods of teaching French.

Moscow, Russia

References

  1. Баранов А.Н., Добровольский Д.О. Об одном подходе к количественной оценке идиоматичности текста как характеристике авторского стиля // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог 2021». Т. 20. М.: РГГУ, 2021. С. 58-67. [Baranov, Anatoly N. & Dimitri O. Dobrovol’skij. 2021. Idiomaticity of a Text as a Matter of the Individual Style: A Quantitative Approach. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog 2021.’ Vol. 20. 58-67. Moscow: RSUHU Publ. (In Russ.)].
  2. Баранов А.Н. Корпусный эксперимент в лингвистической экспертизе // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог 2022». Т. 21. М.: РГГУ, 2022. C. 42-49. [Baranov, Anatoly N. 2022. Corpus experiment in forensic linguistics. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog 2022. Vol. 21. 42-49. Moscow: RSUHU Publ. (In Russ.)].
  3. Богуславский И.М., Григорьев Н.В., Григорьева С.А., Иомдин Л.Л., Крейдлин Л.Г., Санников В.З., Фрид Н.Е. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации // Труды международного семинара «Диалог 2000». [Boguslavskii, Igor’ M., Nikolai V. Grigor’ev, Svetlana A. Grigor’eva, Leonid G. Kreidlin, Vladimir Z. Sannikov & Nina A. Frid. 2000. Annotirovannyi korpus russkikh tekstov: kontseptsiya, instrumenty razmetki, tipy informatsii (An annotated corpus of Russian texts: concept, markup tools, types of information.). Proceedings of the International Seminar ‘Dialog 2000’. (In Russ.)].
  4. Бунтман Н.В., Зализняк А.A., Зацман И.M., Кружков М.Г., Лощилова Е.Ю., Сичинава Д.В. Информационные технологии корпусных исследований: принципы построения кросс-лингвистических баз данных // Информатика и ее применения. 2014. Т. 8. № 2. С. 98-110. [Buntman, Nadezhda V., Anna A., Zaliznyak, IIgor’ M. Zatsman, Mikhail G. Kruzhkov, G., Elena Yu. Loshchilova & Dmitrii V. Sichinava. 2014. Information technologies for corpus studies: Underpinnings for cross-linguistic database creation. Informatics and Applications 8 (2). 98­-110. (In Russ.)].
  5. Бытева Т.И. Основы лингвистической теории перифразы. Красноярск: КрасГУ, 2004. [Byteva, Tat’yana I. 2004. Osnovy lingvisticheskoi teorii perifrazy (Fundamentals of the Linguistic Theory of Periphrase). Krasnoyarsk: KraSGU Publ. (In Russ.)].
  6. Гак В.Г. Языковые преобразования. М.: Школа «Языки русской культуры», 1998. [Gak, Vladimir G. 1998. Yazykovye preobrazovaniya (Language Transformations). Moscow: Shkola «Yazyki russkoi kul’tury». (In Russ.)].
  7. Даровских Ю.А. Сопоставительный анализ семантики грамматических средств выражения аспектуальности в русском и французском языках // Риторика - Лингвистика. 2020. T. 15. C. 76-89. [Darovskikh, Yuliya A. 2020. Comparative analysis of the semantics of grammatical aspect in Russian and French. Ritorika - Lingvistika 15. 76-89. (In Russ.)].
  8. Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003-2005. М.: Индрик, 2005. C. 263-296. [Dobrovol’skii, Dmitrii O., Aleksei A. Kretov & Sergei A. Sharov. 2005. Korpus parallel’nykh tekstov: arkhitektura i vozmozhnosti ispol’zovaniya (Corpus of parallel texts: Architecture and possibilities of use). Natsional’nyi korpus russkogo yazyka: 2003-2005. Moscow: Indrik. 263-296. (In Russ.)].
  9. Есменская Н.А. Явление перифразы в аспекте смысловой связности текста // Актуальные проблемы французской филологии. Сборник научных трудов. Т.2. М.: 2002. С. 52-55. [Esmenskaya, Natal’ya A. 2002. Yavlenie perifrazy v aspekte smyslovoi svyaznosti teksta (The Phenomenon of Paraphrase in the Aspect of the Semantic Coherence of the Text). Aktual’nye problemy frantsuzskoi filologii. Sbornik nauchnykh trudov. Vol. 2. Moscow.: 52-55. (In Russ.)].
  10. Зализняк А.А. Многозначность в языке и способы ее представления. М.: Языки славянской культуры, 2006. [Zalizniak, Anna A. 2006. Mnogoznachnost’ v yazyke i sposoby predstavleniya (Language Polysemy and Means of its Representation). Moscow: Yazyki slavyanskoi kul’tury. (In Russ.)].
  11. Зализняк А.А., Шмелев А.Д. Исследования по русской и компаративной семантике. М.: Издательский Дом. ЯСК, 2021. [Zalizniak, Anna A., Alexei D. Shmelev. 2021. Issledovaniya po russkoi i comporativnoi semantike (Studies on Russian and Comparative Semantics). Moscow: Izdatel’skii dom. Yask (In Rus.)].
  12. Зализняк А.А., Зацман И.М., Инькова О.Ю., Кружков М.Г. Надкорпусные базы данных как лингвистический ресурс // Труды международной конференции «Корпусная лингвистика-2015». СПб.: 2015. С. 211-218. [Zaliznyak, Anna A., Igor M., Zatsman, Olga U. Inkova & Mikhail G. Kruzhkov. 2015. Supracorpora databases as linguistic resource. Proceedings of the Annual International Conference ‘Corpus Linguistics-2015. Saint Petersburg. 211-218. (In Russ.)].
  13. Зализняк А.А., Кружков М.Г. База данных безличных глагольных конструкций русского языка // Информатика и ее применения, 2016. Т. 10. № 4. С. 132-141. [Zalizniak, Anna A. & Mikhail G. Kruzhkov. 2016. Database or Russian impersonal verbal constructions. Informatics and Applications 10 (4). 132-141. (In Russ.)].
  14. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. СПб.: Изд-во СПбГУ, 2020 [Zaharov, Viktor P. & Svetlana Yu. Bogdanova. 2020. Korpusnaya lingvistika (Corpus Linguistics). Saint Petersburg: Saint Petersburg University Publ. (In Russ.)].
  15. Инькова О.Ю., Кружков М.Г. Надкорпусные русско-французские базы данных глагольных форм и коннекторов // Славянские языки in comparatione: материалы IV Международной конференции по контрастивной лингвистике GELiTeC 2016. Изд-во: Bergamo University Press, 2016. 365-392. [Inkova, Olga U. & Mikhail G. Kruzhkov. 2016. Nadkorpusnye russko-frantsuzskie bazy dannykh glagol’nykh form i konnektorov (Supracorpora Russian-French databases of verb forms and connectors). Slavyanskie yazyki in comparatione (Slavic Languages in Contrast). Proceedings of the International Conference on Contrastive Llinguistics ‘GELiTeC 2016’. Bergamo University Press. 365-393. (In Russ.)].
  16. Кружков М.Г. Информационные ресурсы контрастивных лингвистических исследований: электронные корпуса текстов // Системы и средства информатики. 2015. Т. 25. № 2. С. 140-159. [Kruzhkov, Mikhail G. 2015. Information resources for contrastive studies: Electronic text corpora. Sistemy i Sredstva Informatiki 25 (2). 140-159. (In Russ.)].
  17. Кустова Г.И., Ляшевская О.Н., Падучева Е.В., Рахилина Е.В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы / / Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М.: Индрик, 2005. С. 155-174. [Kustova, Galina I., Ol’ga N. Lyashevskaya, Elena V.Paducheva & Ekaterina V. Rakhilina. 2005. Semanticheskaya razmetka leksiki v Natsional’nom korpuse russkogo yazyka: printsipy, problemy, perspektivy (Semantic Markup of Vocabulary in the National Corpus of the Russian Language: Principles, Problems, Prospects). Natsional’nyi korpus russkogo yazyka: 2003-2005. Moscow: Indrik. 263-296. (In Russ.)].
  18. Кустова Г.И. Типы инфинитивных конструкций с предикативами (по данным Национального корпуса русского языка) // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог». Т. 20. Москва: РГГУ, 2021. C. 456-463. [Kustova, Galina I. 2021. The types of infinitive constructions with predicatives (according to the Russian National Corpus). Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog’. Vol. 20. 456-463. Moscow: RSUHU Publ. (In Russ.)].
  19. Кустова Г.И. Электронный семантический словарь глагольных прилагательных: структура и типы информации // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог-2009». М.: 2009. С. 271-277. [Kustova, Galina I. 2009. The semantic database of verbal adjectives: Structure and types of information. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog-2009. Moscow: RGGU. 271-277. (In Russ.)].
  20. Кустова Г.И. Электронный словарь степенной сочетаемости на базе Национального корпуса русского языка // Труды международной конференции «Корпусная лингвистика - 2008». СПб.: 2008. С. 132-149. [Kustova, Galina I. 2008. Ehlektronnyi slovar' stepennoi sochetaemosti na baze Natsional’nogo korpusa russkogo yazyka (Electronic dictionary of power combination based on the national corpus of the Russian language). Proceedings of the International Conference ‘Corpus Linguistics - 2008. Saint Petersburg. 132-149. (In Russ.)].
  21. Прикладная и компьютерная лингвистика / под. ред. И.С. Николаева, О.В. Митрениной, Т.М. Ландо. М.: Ленинград, 2017. [Nikolaev, Il’ya S., Olga V. Mitrenina, Tat’yana M. Lando. (eds.). 2017. Prikladnaya i komp’yuternaya lingvistika (Applied and Computer Linguistics). Moscow: Leningrad. (In Russ.)].
  22. Сиривля М.А. Перифраз в современной лингвистике // Теоретические и методологические аспекты языкознания: материалы международной научно-практической конференции. Алматы: АГУ. 2004. С. 43-47. [Sirivlya, Madina A. 2004. Perifraz v sovremennoi lingvistike (Paraphrase in modern linguistics). Teoreticheskie i metodologicheskie aspekty yazykoznaniya (Theoretical and Methodological Aspects of Linguistics). Proceedings of the International Research and Practice Conference. Almaty: AGU. 2004. 43-47. (In Russ.)].
  23. Сичинава Д.В. Параллельные тексты в составе Национального корпуса русского языка: Новые языки и новые задачи. // Труды Института русского языка им. В.В. Виноградова. 2019. № 21. С. 41-60. [Sitchinava, Dmitri V. 2019. On parallel texts within the Russian national corpus: New languages and new challenges. Trudy Instituta Russkogo Yazyka imeni V. V. Vinogradova 21. 41-60. (In Russ.)].
  24. Туницкая Е.Л. Перефразирование в лингвопрагматическом аспекте на материале французского дискурса. М.: Издательский центр института всеобщей истории РАН, 2010. [Tunitskaya, Elena L. 2010. Perifrazirovanie v lingvopragmaticheskom aspekte na materiale frantsuzskogo diskursa (Paraphrasing in the Linguo-pragmatic Aspect Based on French Discourse.). Moscow: Izdatel’skii tsentr instituta vseobshchei istorii RAN. (In Russ.)].
  25. Чуйкова О.Ю. Родительный партитивный в русском языке: словарные и корпусные данные // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог». Т. 22. М.: РГГУ, 2023. С. 42-50. [Chuikova, Oksana Yu. 2023. Partitive genitive in Russian: Dictionary and corpus data. Komp’yuternaya lingvistika i intellektual’nye tekhnologii. (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog’. Vol. 22. Moscow: RSUHU Publ. 42-50. (In Russ.)].
  26. Шаров С.А. Представительный корпус русского языка в контексте мирового опыта // Научно- техническая информация. 2003. Т.2. № 6. С.12-16. [Sharov, Sergei A. 2003. Predstavitel’nyi korpus russkogo yazyka v kontekste mirovogo opyta (Representative corpus of the Russian language in the context of world experience). Nauchno-tekhnicheskaya informatsiya 2 (6). 12-16. (In Russ.)].
  27. Kruzhkov, Mikhail, Nadezhda V. Buntman, Elena Yu. Loshchilova, Dmitri V. Sitchinava, Anna A. Zalizniak & Igor. M. Zatsman. 2014. The database of Russian verbal forms and their French translation equivalents. Computational Linguistics and Intellectual Technologies. Proceedings of the Annual International Conference ‘Dialog-2014’. Moscow: RGGU. 275-287.
  28. Letuchii, Alexandre B. 2018. Predicatives. Materials for the corpus grammar of the Russian language. No. III. Parts of Speech and Lexical and Grammatical Classes. Saint Petersburg: Nestor- Istoriya. 136-192.
  29. Loiseau, Sébastien, Dmitri V. Sitchinava, Anna A. Zalizniak & Igor M. Zatsman. 2013. Information technologies for creating the database of equivalent verbal forms in the Russian-French multivariant parallel corpus. Informatics and Applications 7 (2). 100-109.
  30. Novakova, Iva & Dirk Siepmann. 2020. Phraseology and Style in Subgenres of the Novel: A Synthesis of Corpus and Literary Perspectives. London: Palgrave Macmillan.
  31. Pons Bordería, Salvador & Elena Pascual Aliaga. 2021. Inter-annotator agreement in spoken language annotation: Applying uα-family coefficients to discourse segmentation. Russian Journal of Linguistics 25 (2). 478-506. https://doi.org/10.22363/2687-0088-2021-25-2-478-506
  32. Plungian, Vladimir, Ekaterina Rakhilina & Tatiana Reznikova. 2022. Perfective, performative and present: Some non-standard combinations in Slavic and beyond. Russian Journal of Linguistics 26 (4). 1012-1030. https://doi.org/10.22363/2687-0088-31252
  33. Sharoff, Serge. 2022. What neural networks know about linguistic complexity. Russian Journal of Linguistics 26 (2). 371-390. https://doi.org/10.22363/2687-0088-30178
  34. Solovyev, Valery, Marina Solnyshkina & Danielle McNamara. 2022. Computational linguistics and discourse complexology: Paradigms and research methods. Russian Journal of Linguistics 26 (2). 275-316. https://doi.org/10.22363/2687-0088-30161
  35. Rastier, François. 2023. Enjeux épistémologiques de la linguistique de corpus. http://www.revue- texto.net/Inedits/Rastier/Rastier_Enjeux.html>. (accessed 12 July 2023).
  36. Zatsman, Igor & Nadezhda Buntman. 2015. Outlining goals for discovering new knowledge and computerised tracing of emerging meanings. Proceedings of the 16th European Conference on Knowledge Management. Reading: Academic Publishing International Limited. 851-860.

Copyright (c) 2023 Buntman N.V., Borisova A.S., Darovskikh Y.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies