Assessing complexity of educational texts of Russian as a foreign language: Prospects and challenges of using artificial intelligence
- Authors: Solnyshkina M.I.1, Andreeva M.I.1
-
Affiliations:
- Kazan (Volga Region) Federal University
- Issue: Vol 24, No 1 (2026): ARTIFICIAL INTELLIGENCE IN SCIENTIFIC RESEARCH AND TEACHING THE RUSSIAN LANGUAGE
- Pages: 120-137
- Section: Methods of Teaching Russian as a Native, Non-Native, Foreign Language
- URL: https://journals.rudn.ru/russian-language-studies/article/view/49281
- DOI: https://doi.org/10.22363/2618-8163-2026-24-1-120-137
- EDN: https://elibrary.ru/VEOLNH
- ID: 49281
Cite item
Full Text
Abstract
The growing interest in Russian education, culture, and science results in the pressing demand for tools to select educational texts for Russian as a foreign language. The study is aimed at working out the algorithm and instruments for assessing the lexical complexity of text in Russian as a foreign language on CEFR with the help of LLM. The study is based on the material of a training sample, including standardized lexical minima in Russian as a foreign language and 232 texts ranked in difficulty by experts, and a test sample with 14 texts for listening in Russian as a foreign language. The methods of computational linguistics (Python script process_word_lists, LLM), expert assessment and metrics for statistical evaluation of the quality of classification models were used in the work. The study describes the successfully used large language models to assess the complexity of Russian-language texts on the RuLingva platform. The results of the study include the created linguistic profiles and the identified abilities of the large GLM 4.6 and Grok 4 fast language models to assess the complexity of educational texts in Russian as a foreign language (A1-C1). The proposed algorithm ranks texts by complexity with a high degree of accuracy, develops test tasks and selects texts for textbooks on Russian as a foreign language. The results obtained can be used by teachers in Russian as a foreign language, testologists, and linguists for preparing teaching materials, glossaries, and test assignments. The prospect of the work is to improve the developed algorithm by expanding the corpus and applying classification models for texts of different genres.
Full Text
Введение
Современные методы обработки естественного языка (Natural language processing, NLP), включая методы машинного обучения и искусственный интеллект (ИИ), становятся наиболее востребованными в силу их поистине безграничных возможностей (Young et al., 2018). Инструменты NLP продолжают демонстрировать свою надежность при решении широкого круга задач, включая анализ тональности текста, распознавание речи, реферирование текстов, автоматический перевод и мн.др. (Andhale, Bewoor, 2016).
Автоматическая классификация сложности текста в рамках дискурсивной комплексологии — отдельная задача (Sharoff, 2022), решение которой, как крайне важный этап алгоритма, во многом определяет успешность разрешения более трудоемких проблем. К последним ученые относят, например, определение тональности и упрощение текста, автоматическую классификацию жанров и даже автоматический перевод (Santucci et al., 2020). Сложность текста — комплексный феномен, манифестируемый на всех уровнях языка. Показательно, что до недавнего времени при анализе сложности текста как аддитивной категории предлагался преимущественно поуровневый подход, при котором оценивали сложность единиц каждого уровня языка с последующим контрастированием синтезированных сложностей. Например, Шаров С.А. (Sharoff, 2022) рекомендует анализировать сложность на уровне слов, аргументируя это разной «сложностью» отдельных слов, проистекающей от их форм, частотности, абстрактности и проч. Для анализа сложности предложений ученые рекомендуют другой перечень параметров, детерминированный синтаксическими и семантическими связями между единицами более высоких уровней языка (Sakhovskiy et al., 2020).
Сложность текста производится значительно реже, поскольку анализу должны быть подвергнуты глобальные свойства текста, в т.ч. его когерентность и связность (когезия). В первую очередь это касается способов аргументации: даже если отдельные предложения легко понять, связи между ними могут потребовать большей когнитивной нагрузки (Sharoff, 2022). Отдельную проблему при выявлении уровня сложности представляют тексты для аудирования. Причина такого положения дел — их специфическая структура и упрощенный синтаксис, которые не всегда полноценно отражаются в лексическом профиле (Карагодин, Карагодина, 2022).
В исследовании мы предлагаем алгоритм и инструменты классификации сложности текста, разработанные в рамках сложившейся системы обучения русскому как иностранному (РКИ). Актуальность представленного исследования определяется, во-первых, отсутствием такого рода инструментария, а во-вторых, значительной вариативностью сложности текстов, маркируемых авторами учебников как принадлежащих разным уровням и даже одному уровню (Ляшевская, 2017; Лапошина, 2018; Лапошина, Лебедева, 2021; Воронин, Исмаева, Данилов, 2024). Ученые и практики указывают, что учебник, как правило, содержит тексты не одного, но нескольких уровней сложности, обеспечивая таким образом динамику сложности в пределах одного уровня, а также варьируя сложность в зависимости от типа задания. Например, задания, предполагающие полное понимание, традиционно разрабатываются на текстах более легких (изучающее чтение), а в основе заданий, связанных с поиском конкретной информации, лежат более сложные тексты (Grabe, 2008).
Вместе с тем, если в учебнике присутствуют тексты значительно более высокого уровня сложности, чем заявлено, это может повлечь за собой не только трудности восприятия текста, но и потенциальную демотивацию обучающихся (Зайцева, Терских, 2023). Ученые указывают, что причиной демотивации часто становится именно сложность текста, которая замедляет когнитивную обработку текста, ведет к перегрузкам и отрицательным эмоциям (Reber, Schwarz, Winkielman, 2004). У. Кинч пишет, что для понимания текста недостаточно понимать слова, важно суметь интегрировать информацию текста в систему своих предыдущих знаний, т.е. выстроить «ситуационную модель» текста (Kintsch, 1998). Если текст слишком сложен, а форма его подачи такова, что читатель вынужден работать на максимуме своей оперативной памяти, то такого рода когнитивные перегрузки ведут к фрустрациям и отказу от деятельности (Grabe, 2008).
В своем стремлении оставаться объективными и следовать лучшим образцам мировой практики разработчики учебных и тестовых материалов опираются на сложившиеся лексические минимумы (ЛМ) (Green, 2012). Однако, несмотря на активное использование ЛМ РКИ, ученые сходятся во мнении о необходимости их обновления с учетом новых возможностей современной лингвистики[1] (Маркина, Руис-Соррилья Крусате, 2011; Лапошина, Лебедева, 2019). Критике, в частности, подвергается недостаточное присутствие в ЛМ РКИ лингвокультурологических единиц, фразеологизмов и устойчивых единиц. Ученые пишут о том, что объем и состав фразеологического минимума для каждого уровня остаются неопределенными, а сами единицы включены в списки без опоры на принцип системности (Андрюшина, 2011). Крайне остро стоит вопрос об оптимальном объеме ЛМ, поскольку отсутствует консенсус относительно достаточного и эффективного объема словника для перехода на следующий уровень владения языком. Отдельную проблему составляет, по мнению В.В. Морковкина, стилистическая ограниченность минимумов начальных и средних уровней, поскольку они содержат преимущественно нейтральную лексику с ограниченной представленностью разговорного и других функциональных стилей[2]. Стилистическое многообразие русского языка в полной мере начинает отражаться только в минимуме третьего (высокого) уровня. Крайне ограничены ЛМ и в плане словообразовательных моделей: считается, что на элементарном и базовом уровнях крайняя минимизация лексики не обеспечивает представленности всех словообразовательных моделей, заявленных в стандартах (Андрюшина, 2011; Лапошина, Лебедева, 2019).
С появлением больших языковых моделей (LLM) ученые и практики получили принципиально новый инструмент, способный имитировать логику рассуждений языковой личности, в т.ч. эксперта, используя аргументацию, выстраивая причинно-следственные отношения, осуществляя синонимические замены и даже ограничивая использование тех или иных языковых средств (Yin, Cho, 2025). Современные LLM не только способны упрощать тексты для различных категорий читателей, но демонстрируют более объективные результаты оценки сложности текста по сравнению с классической формулой Флеша — Кинкейда (Zheng, Yu, 2018). LLM применяются для автоматической оценки письменных работ студентов, поскольку они способны точнее, чем языковая личность, оценить лексическое разнообразие и структуру текста (Shin, Guo, Gierl, 2021). Крайне важной сферой применения LLM является генерация адаптированных под уровень владения языком учебных материалов, что позволяет преподавателям сокращать время на подготовку и обеспечивать индивидуальный подход к каждому студенту. Таким образом, цель исследования состоит в разработке алгоритма и инструментария оценки лексической сложности текста РКИ (по CEFR) с использованием LLM.
Методы и материалы
Источниками материала исследования явились учебники по РКИ, тексты, рекомендованные комиссией по экспертизе тестовых материалов РКИ, Экспертной комиссией Государственной системы тестирования граждан зарубежных стран по русскому языку[3], вошедшие в Учебный корпус русского языка[4].
Материал исследования составили 246 текстов всех уровней владения РКИ (А1 – С1 РКИ CEFR)[5], а также лексические минимумы[6], используемые в практике преподавания русского как иностранного.
Каждый текст получил уникальную маркировку, включающую литеру- маркер учебника и номер текста (табл. 1). Например, текст «Обычно я просыпаюсь рано и сразу встаю» из учебника Эсмантовой Т.Л.[7] маркирован В1_6.
Алгоритм исследования включает следующие этапы: (1) техническая предобработка текстов корпуса; (2) подготовка стандартизированных лексических минимумов; (3) разделение корпуса на обучающую и тестовую выборки; (4) выявление лексического профиля текстов в обучающей выборке; (5) обучение LLM; (6) ранжирование текстов по сложности при помощи LLM на основе авторского промпта; (7) экспертная оценка уровней CEFR текстов тестовой выборки корпуса; (8) оценка качества результатов работы LLM на основе сравнения их с экспертными оценками.
Результаты
Ключевым результатом осуществленного исследования, имеющим значительный потенциал использования в теории и практике преподавания РКИ, являются алгоритм и инструментарий объективной оценки сложности текстов РКИ.
Алгоритм развернут на платформе RuLingva и включает применение промежуточных результатов исследования: лексических профилей текстов РКИ, имеющих в своей основе выявленные паттерны дистрибуции лексики каждого из уровней сложности, а также большие языковые модели, показавшие после обучения высокую степень точности при оценке сложности текстов РКИ.
Наивысшую точность находим у модели GLM 4.6: в 74,4 % случаев ее оценка уровня сложности текста полностью совпала с экспертной. Модель Grok 4 Fast с точностью 0,667 также показала высокий и сопоставимый с GLM 4.6 результат. Полученные выводы особенно важны в отношении текстов для аудирования, которые, как указывалось, из-за их структурной и синтаксической специфики представляют особую проблему при ранжировании по уровням CEFR.
Сравнительный анализ оценок, полученных от лучшей LLM, GLM 4.6, и экспертов показал, что расхождения незначительны и укладываются в рамки смежных подуровней. Например, A2 вместо B1 или наоборот. Данные экспертной оценки 11 текстов (кроме B1_13, B1_14, B1_17) совпали с уровнем, идентифицированным LLM GLM 4.6. При этом все зафиксированные флуктуации находятся в рамках одного подуровня: А2 – В1, А1 – А2.
Впервые выявленные лексические профили каждого уровня сложности текстов РКИ способны выполнять предиктивную и дискриминантную функции, т.е. вполне достаточны для определения принадлежности текста к уровню сложности и дифференцирования текстов различных уровней сложности.
Анализ обучающей выборки показал закономерную динамику: с ростом заявленного уровня текста доля лексики уровня A1 в нем последовательно снижается (с 67,1 до 41,5 %), в то время как доля слов более высоких уровней (B1, B2, C1) закономерно возрастает: В1 — 4,3 → 11,0; В2 — 3,3 → 9,9; С1 — 1,3 → 7,3 %). При этом значительная часть лексики (от 10,6 до 22,9 %) в текстах всех уровней в стандартизированных лексических минимумах отсутствует (категория слов «O», сокр. от «отсутствует»). Данный факт отражает вариативность аутентичного учебного материала и необходимость учета этого фактора при подборе текстов для учебников и тестов.
Алгоритм, включающий последовательную работу профайлера RuLingva 2.0., функционирующего на основе стандартизированных ЛМ, а также LLM GLM 4.6 и Grok fast позволяет реализовать объективную оценку лексической сложности текстов РКИ. Для преподавателей и разработчиков учебных и тестовых материалов по РКИ полученные данные могут служить надежным способом отбора учебного материала для конкретной целевой аудитории в рамках уровней А1 — С1, CEFR.
Обсуждение
Этап 1: техническая предобработка текстов корпуса
Техническая предобработка текстов корпуса имела целью удаление из текста знаков, контаминирующих данные и создающих «шумы», и включала сканирование, извлечение из pdf источников, сохранение текстов в формате txt, обработку в программе-редакторе Notepad++, исправление опечаток, удаление лишних и нечитаемых символов, пробелов.
Этап 2: подготовка и установка стандартизированных ЛМ РКИ в текстовый профайлер RuLingva
Автоматическое извлечение слов ЛМ осуществлялось при помощи текстового профайлера RuLingva[8]. Загрузке текстов в профайлер предшествовали оцифровка ЛМ и проверка на предмет отсутствия нечитаемых символов или повторов.
Проверка лексических минимумов на присутствие в них повторяющихся слов была реализована в Python-скрипте process_word_lists.ru. Все повторяющиеся слова были удалены из списков более высоких уровней. Например, в ЛМ А2 не вошли слова, присутствующие в ЛМ А1: а, август, автобус, автор, адрес, активный, английский, англичанин, англичанка, англо-русский, бабушка, балет, банк, баскетбол, бассейн, бедный, белый, бабушка и т.д. Данный факт стал причиной того, что количество уникальных слов в ЛМ А2 значительно сократилось по сравнению с ЛМ А1 (табл. 1). Аналогичным образом слова воздух, граница, живопись и т.д., первичная фиксация которых выявлена в ЛМА2, удалены из списков В1 — С1. Для ЛМ В1 уникальны, например, слова желудок, закуска, зарубежный, мужественный и т.д. Такие слова как контрабанда, либеральный, меценат, наводнение, накануне и т.д. принадлежат исключительно ЛМ В2. Слова авианосец, энтузиазм, электорат, чужбина и т.д. вводятся на уровне С1, и поэтому впервые появляются в ЛМ С1. После удаления повторов общий объем ЛМ составил 11202 слова (табл. 1).
Таблица 1 / Table 1
Количественный состав лексических минимумов РКИ / Distribution of vocabulary in CEFR lists of Russian as a foreign language
Уровень CEFR / CEFR | Количество слов в ЛМ / Words in Lexical Minimum |
А1 | 789 |
А2 | 554 |
В1 | 1023 |
В2 | 2828 |
С1 | 6008 |
ИТОГО / TOTAL | 11202 |
Источник: расчеты выполнены М.И. Андреевой, М.И. Солнышкиной на материале авторского корпуса исследования.
Source: calculated by M.I. Andreeva, M.I. Solnyshkina based on the Research corpus.
Современный функционал RuLingva, разработанный для комплексного лингвистического анализа текстов на русском языке, позволяет осуществлять оценку сложности текста и классифицировать словарный состав по уровням CEFR. Пример классификации лексики текста В1_13 из учебника Т.Л. Эсмантовой[9] приведен в табл. 2.
Таблица 2
Классификация лексики текста В1_13 по уровням сложности при помощи RuLingva[10][11]
CEFR | Доли слов | Лексика текста В1_13 (фрагмент) |
1 | 2 | 3 |
A1 | 245 (72,9 %)10 | не 23 (12,9 %)11 она 14 (7,9 %) что 10 (5,6 %) на 8 (4,5 %) он 7 (3,9 %) |
A2 | 39 (11,6 %) | шутит 1 (0,6 %) уехал 1 (0,6 %) молчит 1 (0,6 %) диване 1 (0,6 %) |
B1 | 30 (8,9 %) | потолок 1 (0,6 %) кричала 1 (0,6 %) плакала 1 (0,6 %) кричит 1 (0,6 %) |
B2 | 9 (2,7 %) | раньше 2 (1,1 %) скучал 2 (1,1 %) депрессия 1 (0,6 %) вообще 1 (0,6 %) |
C1 | 5 (1,5 %) | кошмар 1 (0,6 %) стресс 1 (0,6 %) практически 1 (0,6 %) неважно 1 (0,6 %) |
O* | 8 (2,4 %) | Вика 2 (1,1 %) Яна 1 (0,6 %) Виктория 1 (0,6 %) Вики 1 (0,6 %) |
Примечание. *Буквой О маркируются слова, отсутствующие в лексических минимумах РКИ.
Источник: расчеты выполнены М.И. Андреевой, М.И. Солнышкиной на материале авторского корпуса исследования.
Table 2
Classification of vocabulary complexity in text B1_13 by RuLingva
CEFR | Distribution | Vocabulary of text B1_13 (fragment) |
1 | 2 | 3 |
A1 | 245 (72.9%) | not 23 (12.9%) she 14 (7.9%) that 10 (5.6%) by 8 (4.5%) he 7 (3.9%) |
A2 | 39 (11,6%) | jokes 1 (0.6%) left 1 (0.6%) is silent 1 (0.6%) on the couch 1 (0.6%) |
B1 | 30 (8.9%) | ceiling 1 (0.6%) screamed 1 (0.6%) cried 1 (0.6%) screams 1 (0.6%) |
B2 | 9 (2,7%) | before 2 (1.1%) missed 2 (1.1%) depression 1 (0.6%) in general 1 (0.6%) |
C1 | 5 (1,5%) | nightmare 1 (0.6%) stress 1 (0.6%) practically 1 (0.6%) unimportant 1 (0.6%) |
UNK* | 8 (2,4%) | Vika 2 (1.1%) Yana 1 (0.6%) Victoria 1 (0.6%) Vika 1 (0.6%) |
Note. *UNK marks the words unlisted in RFL lexical minima.
Source: calculated by M.I. Andreeva, M.I. Solnyshkina based on the Research corpus.
Этап 3: разделение корпуса на обучающую и тестовую выборки
В соответствии с нормами современной научной парадигмы компьютерной лингвистики весь корпус исследования был поделен на две части, обучающую и тестовую. Для обучения LLM было использовано 232 текста. Оценка качества разработанных алгоритма и инструментария определения лексической сложности текста РКИ осуществлена на 14 текстах для аудирования из двух учебников: В.Е. Антоновой, М.М. Нахабиной и Т.Л. Эсмантовой[12]. Данные тексты составили тестовую выборку коллекции.
Этап 4: выявление лексического профиля текстов обучающей выборки
На основании сложившегося в современной прикладной лингвистике понимания лексического профиля текста как совокупности квантитативных данных о дистрибуции и взаимосвязи его лингвистических параметров (Virk et al., 2020, Солнышкина, Соловьев, Эбзеева, 2024) в представленном исследовании лексический профиль текста РКИ трактуется как данные о нормах долей лексики каждого из уровней сложности (по CEFR). Лингвистическое профилирование текстов РКИ осуществлялось на основании лексических минимумов для выявления нормативных референсных диапазонов долей лексики А1-С1 на каждом уровне сложности от А1 до С1.
В рамках исследования классификацию лексики по уровням CEFR в текстах обучающей выборки производили на основе лексических минимумов при помощи RuLingva для каждого текста отдельно, определяя средние показатели долей лексики в текстах уровней А1 — С1 (табл. 3).
Этап 5: обучение LLM
Для обучения отобрали пять LLM, а именно, Grok 4 fast, GPT 5, Gemini 2.5 pro, Deepseek r1, Claude Sonnet 4.5. Обучение LLM осуществлялась при помощи методов машинного обучения: Ridge Regression (Регрессия с регуляризацией) (Hoerl, Kennard, 1970), Decision Tree (Дерево решений) (Breiman et al., 2017), Random Forest (Случайный лес) (Breiman, 2001), Gradient Boosting (Градиентный бустинг) (Friedman, 2001).
Таблица 3
Классификация лексики в текстах обучающей выборки по уровням сложности при помощи RuLingva
Уровень сложности текста | Доля слов, % | |||||
A1 | A2 | B1 | B2 | C1 | O | |
A1 | 67,1 ± 12* | 11,5 ± 2 | 4,3 ± 1 | 3,3 ± 1 | 1,3 ± 1 | 12,5 ± 3 |
A2 | 60,4 ± 9 | 14,0 ± 4 | 8,1 ± 2 | 4,3 ± 1 | 2,6 ± 1 | 10,6 ± 3 |
B1 | 53,0 ± 6 | 12,9 ± 3 | 11,0 ± 3 | 7,8 ± 2 | 4,2 ± 1 | 11,2 ± 4 |
B2 | 40,6 ± 9 | 12,4 ± 1 | 10,2 ± 3 | 7,8 ± 4 | 6,2 ± 2 | 22,9 ± 7 |
C1 | 41,5 ± 7 | 14,3 ± 2 | 11,0 ± 3 | 9,9 ± 2 | 7,3 ± 2 | 16,1 ± 4 |
Примечание. *Стандартное отклонение.
Источник: расчеты выполнены М.И. Андреевой, М.И. Солнышкиной на материале авторского корпуса исследования.
Table 3
Classification of vocabulary complexity in the training collection preformed by RuLingva
Text complexity level | Distribution of vocabulary, % | |||||
A1 | A2 | B1 | B2 | C1 | O | |
A1 | 67.1 ± 12* | 11.5 ± 2 | 4.3 ± 1 | 3.3 ± 1 | 1.3 ± 1 | 12.5 ± 3 |
A2 | 60.4 ± 9 | 14.0 ± 4 | 8.1 ± 2 | 4.3 ± 1 | 2.6 ± 1 | 10.6 ± 3 |
B1 | 53.0 ± 6 | 12.9 ± 3 | 11.0 ± 3 | 7.8 ± 2 | 4.2 ± 1 | 11.2 ± 4 |
B2 | 40.6 ± 9 | 12.4 ± 1 | 10.2 ± 3 | 7.8 ± 4 | 6.2 ± 2 | 22.9 ± 7 |
C1 | 41.5 ± 7 | 14.3 ± 2 | 11.0 ± 3 | 9.9 ± 2 | 7.3 ± 2 | 16.1 ± 4 |
Note. * Standard deviation.
Source: calculated by M.I. Andreeva, M.I. Solnyshkina based on the dataset.
Этап 6: ранжирование текстов по сложности при помощи LLM
В ходе данного этапа все используемые LLM получили одинаковое задание, т.е. промпт (рис.1), и произвели оценку сложности каждого из 14 текстов тестовой выборки.
Ты — эксперт, специализирующийся в изучении русского языка как иностранного. Твои задачи следующие: 1) Определи доли слов (%) разных уровней сложности по CEFR (А1, А2, В1, В2, С1) в каждом из Текстов А1. Тексты в формате word хранятся в папке «C … Типовые тесты А1». Списки слов каждого уровня сложности (А1, А2, В1, В2, С1) находятся в папке Слова, отсутствующие в списках CEFR (А1, А2, В1, В2, С1) фиксируй в списке О. 2) Выведи формулу сложности текстов А1, в которой указаны диапазоны долей (%) слов каждого из уровней сложности по CEFR (А1, А2, В1, В2, С1). Например, А1 (80–95%): А2 (7–17%): В1 (3–5%): В2 (2–4%): С1 (2–3%): О (1–5%). 3) Проанализируй свои действия. Все ли ты сделал в соответствии с промптом? 4) … 19) Представь формулы сложности текстов А1, А2, В1, В2, С1, С2 в таблице с указанием долей слов (%) разных уровней сложности. Сохрани таблицу в файле формата xlsx 20) Проанализируй свои действия. Все ли ты сделал в соответствии с промптом? 21) Проанализируй тексты из папки… и присвой им уровень сложности от А1 до С2. При выполнении задач рассуждай по шагам, к промпту, написанному мной, отнесись со всем вниманием. |
Рис. 1. Промпт, полученый каждой LLM
Источник: подготовлен М.И. Андреевой, М.И. Солнышкиной.
Figure 1. Prompt received by all LLMs
Source: designed and developed by M.I. Andreeva, M.I. Solnyshkina.
Данные об уровнях сложности, выявленных LLM в текстах тестовой выборки, представлены в табл. 4.
Таблица 4
Уровень сложности текстов РКИ: экспертная оценка и оценка LLM
Текст | Экспертная оценка | GLM 4.6 | Grok 4 fast | Claude Sonnet 4.5 | GPT 5 | Gemini 2.5 Pro |
A2_10 | A2 | A2 | A2 | A2 | A1 | А1 |
A2_14 | A1 | A1 | A1 | A1 | A1 | А1 |
A2_15 | B1 | B1 | A2 | B1 | A1 | А1 |
A2_16 | B1 | B1 | B1 | A2 | A1 | А1 |
A2_19 | A1 | A1 | A2 | B1 | A1 | А1 |
A2_20 | A2 | A2 | B1 | A2 | A1 | А1 |
A2_21 | A2 | A2 | A2 | A2 | A1 | А1 |
B1_6 | B1 | B1 | B1 | B1 | A1 | А1 |
B1_8 | B1 | B1 | B1 | B1 | A1 | А1 |
B1_9 | A2 | A2 | B1 | A2 | A1 | А1 |
B1_10 | A2 | A2 | A2 | B1 | A1 | А1 |
B1_13 | A2 | B1 | B1 | A2 | A1 | А1 |
B1_14 | B1 | A2 | B1 | A2 | A2 | А1 |
B1_17 | A2 | B1 | B1 | A2 | A1 | А1 |
Источник: расчеты выполнены М.И. Андреевой, М.И. Солнышкиной на материале авторского корпуса исследования.
Table 4
Complexity level of Russian texts: expert assessment vs LLM evaluation
Texts | Experts’ assessment | GLM 4.6 | Grok 4 fast | Claude Sonnet 4.5 | GPT 5 | Gemini 2.5 Pro |
A2_10 | A2 | A2 | A2 | A2 | A1 | А1 |
A2_14 | A1 | A1 | A1 | A1 | A1 | А1 |
A2_15 | B1 | B1 | A2 | B1 | A1 | А1 |
A2_16 | B1 | B1 | B1 | A2 | A1 | А1 |
A2_19 | A1 | A1 | A2 | B1 | A1 | А1 |
A2_20 | A2 | A2 | B1 | A2 | A1 | А1 |
A2_21 | A2 | A2 | A2 | A2 | A1 | А1 |
B1_6 | B1 | B1 | B1 | B1 | A1 | А1 |
B1_8 | B1 | B1 | B1 | B1 | A1 | А1 |
B1_9 | A2 | A2 | B1 | A2 | A1 | А1 |
B1_10 | A2 | A2 | A2 | B1 | A1 | А1 |
B1_13 | A2 | B1 | B1 | A2 | A1 | А1 |
B1_14 | B1 | A2 | B1 | A2 | A2 | А1 |
B1_17 | A2 | B1 | B1 | A2 | A1 | А1 |
Source: Calculated by M.I. Andreeva, M.I. Solnyshkina based on the Research corpus.
Этап 7: экспертная оценка уровней CEFR текстов тестовой выборки корпуса
В рамках данного этапа каждый из 14 текстов тестовой выборки был изучен тремя сертифицированными экспертами РКИ с опытом работы не менее 15–20 лет на предмет оценки его уровня сложности. Совокупный индекс сложности присваивался тексту только в том случае, если коэффициент согласованности трех экспертов больше или равен 0,8 (о коэффициенте альфа Криппендорфа см. (Krippendorff, 2018)) (см. табл. 3).
Экспертная оценка 14 текстов и заданий к каждому из них включала следующие этапы: (1) классификация аудирования по видам: ознакомительное — выборочное — детальное (Alderson, 2000); (2) идентификация трудности задания (низкая [прочитай, найди в тексте ответы на вопросы] — средняя [прочитай, объясни, используя …] — высокая [прочитай, объясни, напиши] (Alderson, 2000). Анализ текстов тестовой выборки показал, что разработчики стремятся использовать текст для формирования навыков не одного, но нескольких видов речевой деятельности. Например, текст В1_6 «Обычно я просыпаюсь рано и сразу встаю» предполагает интегрированную работу, нацеленную на развитие навыков аудирования, говорения и письма (послушайте текст и ответьте на вопросы, расскажите о своем распорядке дня и сравните с текстом, составьте план). Такой вид классифицируется как наиболее трудный для выполнения.
Данные об уровнях сложности, идентифицированных экспертами в текстах тестовой выборки, приведены в табл. 4.
Этап 8: оценка качества результатов работы LLM
Оценка качества классификационных моделей производилась на основе классической статистической метрики — точность (Accuracy), определяющей долю правильных предсказаний и измеряющей общую правильность (Foody, 2023). Например, значение 0,67 указывает на 67 % точных совпадений в классификации.
Правильной признавалась оценка, совпадающая с уровнем сложности текста, установленным (а) авторами учебника и (б) экспертами (см. табл. 4).
Результаты экспертной оценки и определения уровня сложности пятью разными LLM приведены на рис. 2 и 3.
Рис. 2. Оценка сложности текстов для аудирования уровня A2 пятью разными LLM и экспертами
Источник: расчеты выполнены М.И. Андреевой, М.И. Солнышкиной на материале авторского корпуса исследования.
Figure 2. A2 Listening texts complexity assessment by 5 different LLMs and experts
Source: calculated by M.I. Andreeva, M.I. Solnyshkina based on the Research corpus.
Анализ индексов сложности текстов для аудирования (см. рис. 2 и 3), определенных экспертами и LLM, показывает неоднозначность их интерпретаций: единство мнений наблюдается только для текста А2_14. Однако флуктуации индекса сложности варьируются в пределах одного уровня, что в целом свидетельствует как о высоком качестве моделей, так и точности подбора текстов в учебнике. Наибольшее количество совпадений с мнением эксперта относительно уровня сложности наблюдаем в случаях с моделями LLM, GLM 4.6. и Grok 4.0 fast, что также косвенно свидетельствует об их качестве.
Работа по классификации текстов для аудирования продемонстрировала стабильность работы моделей LLM GLM 4.6. и Grok 4.0 fast. LLM Claude Sonnet 4.5 показывает противоречивые результаты, а модели LLM GPT 5 и LLM Gemini 2.5 Pro ошибаются чаще, чем другие модели.
Рис. 3. Оценка сложности текстов для аудирования уровня B1 пятью разными LLM и экспертами
Источник: Расчеты выполнены М.И. Андреевой, М.И. Солнышкиной на материале авторского корпуса исследования.
Figure 3. B1 Listening texts complexity assessment by 5 different LLMs and experts
Source: Calculated by M.I. Andreeva, M.I. Solnyshkina based on the Research corpus.
Значимым следует признать и еще один вывод: качество классификационной модели GLM 4.6 в целом несколько выше, чем результаты, заявленные исследователями при решении аналогичных задач на материале итальянского (0,6) (Santucci et al, 2020), английского (0,7) (Trott, Rivière, 2024) и даже русского (0,6) (Sharoff, 2022) языков. Этот факт свидетельствует о перспективности данного направления, а также в пользу применения именно GLM 4.6 для разработки учебных и тестовых материалов РКИ.
Заключение
Исследование подтвердило основную гипотезу о способности хорошо предобученных больших языковых моделей определять уровень сложности текстов РКИ с высокой степенью точности.
Результаты исследования будут полезны в разработке новых классификационных моделей и отборе текстов для контроля сформированности навыков (аудирование, чтение, говорение, письмо). Особую значимость результаты исследования имеют при подборе текстов для тестирования и создания учебных материалов. Применение LLM в языковом анализе открывает новые возможности для улучшения качества обучения и оценки языковых навыков. Исследования подтвердило способность LLM, обученных на достаточно репрезентативных обучающих выборках, эффективно оценивать сложность текста РКИ.
Перспективы дальнейших исследований видятся в расширении корпуса исследования, например, для анализа учебников уровней В2 и С1 с использованием новых и уже работающих LLM. Интересным представляется применение разработанного алгоритма для изучения текстов РКИ разных жанров, например, биографий и художественных тестов. Данные об уровнях лексической сложности текстов РКИ представляются полезными преподавателям и тестологам при подготовке учебных и контроль-измерительных материалов. Более того полученные результаты могут составить основу глоссариев и лексических минимумов учебников.
1 Морковкина В.В. Система лексических минимумов современного русского языка: 10 лексических списков: от 500 до 5000 самых важных русских слов. М. : АСТ, 2003. 586 с.
2 Там же.
3 Приказ от 16 февраля 2005 г. № 69 о создании экспертной комиссии государственной системы тестирования граждан зарубежных стран по русскому языку. URL: https://normativ.kontur.ru/document?moduleId=1&documentId=85661 (дата обращения: 15.09.2025).
4 Свидетельство о государственной регистрации базы данных № 2020622254.
5 Common European framework of reference (CEFR) — Общеевропейская шкала уровней владения языком.
6 Андрюшина Н.П., Козлова Т.В. Лексический минимум по русскому языку как иностранному. Элементарный уровень. Общее владение : электронное издание. 5-е изд. СПб. : Златоуст, 2015. 80 с.; Андрюшина Н.П., Козлова Т.В. Лексический минимум по русскому языку как иностранному. Базовый уровень. Общее владение : электронное издание. 5-е изд. СПб. : Златоуст, 2015. 116 с.; Андрюшина Н.П. и др. Лексический минимум по русскому языку как иностранному. Первый сертификационный уровень. Общее владение : электронное издание. 7-е изд. СПб. : Златоуст, 2015. 200 с.; Лексический минимум по русскому языку как иностранному. Лексический минимум по русскому языку как иностранному. Второй сертификационный уровень. Общее владение [электронное издание] / под ред. Н.П. Андрюшиной. 5-е изд. СПб. : Златоуст, 2015. 164 с.; Аверьянова Н.Г., Беликова Г.Л. Типовые тесты по русскому языку как иностранному. Третий сертификационный уровень. Общее владение. М. ; СПб. : Златоуст, 1999. 112 с.
7 Эсмантова Т.Л. Русский язык: 5 элементов: уровень В1 (Базовый — Первый сертификационный). СПб. : Златоуст, 2011. 340 с.
8 RuLingva 2.0. URL: rulingva.kpfu.ru (дата обращения: 15.09.2025).
9 Эсмантова Т.Л. Русский язык: 5 элементов: уровень В1 (Базовый — Первый сертификационный). СПб. : Златоуст, 2011. 340 с.
10 В столбце 2 указаны доли слов всех уровней в анализируемом тексте: абсолютное количество и относительное, %, от всех слов в тексте. Например, в тексте B1_13 использовано 245 слов уровня А1, что составляет 72,9 % от всех слов в тексте.
11 В столбце 3 указано количество вхождений слов определенного уровня. В скобках указано относительное количество, %, вхождений данного слова от всех слов в тексте. Например, частица «не» имеет 23 вхождения, что составляет 12,9% от всех слов в тексте.
12 Антонова В.Е., Нахабина М.М. Дорога в Россию : учебник русского языка (базовый уровень). 14-е изд. СПб. : Златоуст, 2019. 256 с.; Эсмантова Т.Л. Русский язык: 5 элементов: уровень В1 (базовый — первый сертификационный). СПб. : Златоуст, 2011. 340 с.
About the authors
Marina I. Solnyshkina
Kazan (Volga Region) Federal University
Email: mesoln@yandex.ru
ORCID iD: 0000-0003-1885-3039
SPIN-code: 6480-1830
Scopus Author ID: 56429529500
ResearcherId: E-3863-2015
Doctor of Philology, Professor of the Department of Theory and Practice of Teaching Foreign Languages, Head of ‘Multidisciplinary text research’ Research Lab
18 Kremlevskaya st., bldg. 1, Kazan, 420008, Russian FederationMariia I. Andreeva
Kazan (Volga Region) Federal University
Author for correspondence.
Email: mariia99andreeva@yandex.ru
ORCID iD: 0000-0002-5760-0934
SPIN-code: 9243-6995
Scopus Author ID: 57195974758
ResearcherId: ABF-7003-2020
Candidate of Philology, Associate Professor, Senior researcher of the research laboratory ‘Multidisciplinary text research’
18 Kremlevskaya st., bldg. 1, Kazan, 420008, Russian FederationReferences
- Alderson, J. C. (2000). Assessing Reading. Cambridge: Cambridge University Press.
- Andhale, N., & Bewoor, L. A. (2016). An overview of text summarization techniques. In 2016 international conference on computing communication control and automation (ICCUBEA). (pp. 1–7). IEEE. https://doi.org/10.1109/ICCUBEA.2016.7860040
- Andryushina, N. P. (2011). Basic dictionary for Russian as a second language (the choice of words and set phrases). Journal of Historical, Philological and Cultural Studies, (3), 648–652. (In Russ.). EDN: OJPOAR
- Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C.J. (2017). Classification and regression trees. Boca Raton: Chapman and Hall/CRC.
- Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32. https://doi.org/10.1023/A:1010933404324 EDN: ARROTH
- Foody, G. M. (2023). Challenges in the real world use of classification accuracy metrics: From recall and precision to the Matthews correlation coefficient. Plos one, 18(10), e0291908. https://doi.org/10.1371/journal.pone.0291908 EDN: LRZNQD
- Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of statistics, 29(5), 1189–1232. https://doi.org/10.1214/aos/1013203451
- Grabe, W. (2008). Reading in a second language: Moving from theory to practice. Cambridge University Press.
- Green, A. (2012). Language functions revisited: Theoretical and empirical bases for language construct definition across the ability range. Vol. 2. Cambridge University Press.
- Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55–67. https://doi.org/10.1080/00401706.1970.10488634
- Karagodin, A. A., & Karagodina, I. A. (2022). Criteria for selecting an authentic audio text in the interview genre for preparation for Russian as a foreign language testing: Second certificate level (the “Listening” subtest). Pedagogy. Questions of Theory and Practice, 7(11), 1160–1166. (In Russ.). https://doi.org/10.30853/ped20220205 EDN: DQHUXQ
- Kintsch, W. (1998). Comprehension: A paradigm for cognition. Cambridge University Press.
- Krippendorff, K. (2018). Content analysis: An introduction to its methodology (4th ed.). Thousand Oaks: Sage Publications.
- Laposhina, A. N. (2018). The experience of experimental research of the complexity of texts on RFL. The dynamics of linguistic and cultural processes in modern Russia, (6), 1544–1549. (In Russ.). EDN: YQOZJR
- Laposhina, A. N., & Lebedeva, M. Y. (2019). A corpus approach to solving the problem of vocabulary selection in RFL teaching. Russian Language in the Multilingual World. Helsinki: University of Helsinki, (52), 359–368. (In Russ.).
- Laposhina, A. N., & Lebedeva, M. Yu. (2021). Textometr: An online tool for automated complexity level assessment of texts for Russian language learners. Russian Language Studies, 19(3), 331–345. (In Russ.). https://doi.org/10.22363/2618-8163-2021-19-3-331-345 EDN: YQLLXW
- Lyashevskaya, O. N. (2017). To determine the complexity of Russian texts. In XVII April International Scientific Conference on the Problems of Economic and Social Development. Is. 4 (pp. 408–418). (In Russ.).
- Markina, E. I., & Ruiz-Zorrilla Cruzate, M. (2011). The main approaches to the minimization of vocabulary in Russian and European learning lexicography. Polylinguality and Transcultural Practices, (3), 77–84. (In Russ.). EDN: OCVXGD
- Reber, R., Schwarz, N., & Winkielman, P. (2004). Processing fluency and aesthetic pleasure: Is beauty in the perceiver’s processing experience? Personality and Social Psychology Review, 8(4), 364–382. https://doi.org/10.1207/s15327957pspr0804_3 EDN: JPBPOP
- Sakhovskiy, A., Solovyev, V., & Solnyshkina, M. (2020). Topic modeling for assessment of text complexity in Russian textbooks. In 2020 Ivannikov Ispras Open Conference (ISPRAS) (pp. 102–108). IEEE. https://doi.org/10.1109/ISPRAS51486.2020.00024 EDN: OBICSZ
- Santucci, V., Santarelli, F., Forti, L., & Spina, S. (2020). Automatic classification of text complexity. Applied Sciences, 10(20), 7285. https://doi.org/10.3390/app10207285
- EDN: SFBUAM
- Sharoff, S. A. (2022). What neural networks know about linguistic complexity. Russian Journal of Linguistics, 26(2), 371–390. https://doi.org/10.22363/2687-0088-30059 EDN: TWWBZJ
- Solnyshkina, M. I., Soloviev, V. D., & Ebzeeva, Yu. N. (2024). Approaches and tools for Russian text linguistic profiling. Russian Language Studies, 22(4), 501–517. (In Russ.). https://doi.org/10.22363/2618-8163-2024-22-4-501-517 EDN: AMYSNF
- Trott, S., & Rivière, P. D. (2024). Measuring and modifying the readability of English texts with GPT-4. arXiv preprint arXiv: 2410.14028.
- Virk, S. M., Hammarström, H., Borin, L., Forsberg, M., & Wichmann, S. (2020). From linguistic descriptions to language profiles. In Proceedings of the 7th Workshop on Linked Data in Linguistics (LDL-2020) (pp. 23–27). Marseille: European Language Resources Association.
- Voronin, K. V., Ismaeva, F. H., & Danilov, A.V. (2024). Linguistic profiling of educational and artistic texts. Russian Language Studies, 22(4), 555–578. (In Russ.). https://doi.org/10.22363/2618-8163-2024-22-4-555-578 EDN: AWRLUL
- Yin, J., & Cho, M. G. (2025). Design and implementation of an adaptive English text regeneration system based on CEFR language proficiency levels. International Journal of Contents, 21(3), 178–196. https://doi.org/10.5392/IJoC.2025.21.3.178 EDN: CHTMZV
- Young, T., Hazarika, D., Poria, S., & Cambria, E. (2018). Recent trends in deep learning based natural language processing. IEEE Computational Intelligence Magazine, 13(3), 55–75. https://doi.org/10.1109/MCI.2018.2840738
- Zaytseva, O. A., & Terskikh, M. V. (2023). Didactic potencial of news videos in Russian as a foreign language classes. Current Issues in Philology and Pedagogical Linguistics, (2), 216–228. (In Russ.). https://doi.org/10.29025/2079-6021-2023-2-216-228 EDN: ACVBJW
- Shin, J., Guo, Q., & Gierl, M. J. (2021). Automated essay scoring using deep learning algorithms. In Khosrow-Pour D.B.A., M. (Ed.). Handbook of research on modern educational technologies, applications, and management. Pp. 37-47. IGI Global Scientific Publishing. https://doi.org/10.4018/978-1-7998-3476-2 EDN: ZUTYJQ
- Zheng, J., & Yu, H. (2018). Assessing the readability of medical documents: A ranking approach. JMIR Medical Informatics, 6(1), e8611. https://doi.org/10.2196/medinform.8611
Supplementary files
Source: calculated by M.I. Andreeva, M.I. Solnyshkina based on the Research corpus.
Source: Calculated by M.I. Andreeva, M.I. Solnyshkina based on the Research corpus.














