Лексическое обогащение в учебниках филологического блока: корпусный и статистический подходы
- Авторы: Галимова Х.Н.1, Мартынова Е.В.1, Москвичева С.А.2
-
Учреждения:
- Казанский (Приволжский) федеральный университет
- Россйский университет дружбы народов
- Выпуск: Том 22, № 4 (2024): ЛИНГВИСТИЧЕСКОЕ ПРОФИЛИРОВАНИЕ ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ: ОТ ФОРМ К СМЫСЛАМ
- Страницы: 579-597
- Раздел: Актуальные проблемы исследований русского языка
- URL: https://journals.rudn.ru/russian-language-studies/article/view/42909
- DOI: https://doi.org/10.22363/2618-8163-2024-22-4-579-597
- EDN: https://elibrary.ru/AYFCCE
- ID: 42909
Цитировать
Полный текст
Аннотация
Актуальность представленного исследования определяется значимостью объективных данных о частоте употребления лексических единиц в учебниках русского языка, а также неизученностью процессов освоения лексики в процессе обучения родному языку в школе. Описан опыт создания частотного словаря учебников филологического блока с опорой на лингвистический корпус учебников русского языка и литературы для 5-7 классов. Учебники филологического предметного блока содержат в себе усредненную модель русского языка и литературы, отражая актуальные для школьника темы и постепенно наращивая объем лексического состава от простого к более сложному. Цель исследования - оценка лексического обогащения в учебных текстах филологического предметного блока для 5-7 классов, а также усовершенствование методики формирования частотных списков. Исследование проведено на материале корпуса, в который вошли 66 учебников по русскому языку и литературе общим объемом 1 553 224 словоформ. Использование методов корпусной и компьютерной лингвистики, а также сравнительно-сопоставительного и статистического методов, в частности программы IKSWEB, среды Google Colab, библиотек Pandas, NLTK и Pymorphy позволило выявить, что объем частотного словаря учебников филологического блока 5 класса составляют 8984 лексемы, 6 класса - 7572 лексемы, 7 класса - 7321 лексемы. «Обогащение» лексики» в 6 классе составляют 258 лексем, в 7 классе - 150 лексем. Лексическим ядром трех частотных списков являются слова следующих тематических групп: «Филологические термины», «Глаголы, обозначающие учебные операции», «Природа», «Родственные и дружеские отношения», «Искусство» и «Время». Выявлено, что обогащение словарного запаса у учащихся 6 класса осуществляется за счет архаизмов и историзмов; терминов, характеризующих формы общенационального языка, и терминов словообразования. В 7 классе обогащение частотного словаря осуществляется за счет лингвистических терминов по теме «Наименование глагольных форм», лексико-тематической группы «Религия» и общественно-политической лексики. Частотные списки подтвердили гипотезу о тематической сбалансированности текстов в современных учебниках русского языка и литературы среднего звена и ядерном положении терминологии в текстах рассматриваемых учебников. Перспектива исследования видится в осуществлении аналогичного исследования на материале учебных текстов филологического и других предметных блоков старшей школы для выявления внутри- и метапредметных связей.
Ключевые слова
Полный текст
Введение
Ни одно слово в языке не существует отдельно от общей номинативной языковой системы, а частотность отдельных слов в дискурсах разных периодов и разных языковых личностей определяется значимостью обозначаемых ими реалий в жизни человека и общества (Коростелева, 2013). Частотность слова в речи всегда является отражением его функционального веса в системе языка, тесно связана с «его парадигматической значимостью, важностью, существенностью для языка» (Гиндин, 1982: 22). Как подчеркивает Л.А. Турыгина, «с каждым элементом можно связать число, которое тем больше, чем более употребителен данный языковой элемент» (Турыгина, 1988: 38).
В современной научной парадигме частотность слова рассчитывается как доля количества употреблений данного слова в тексте или корпусе языка от общего числа слов в тексте или корпусе, выраженная в процентах (Глинкина, 2011). Высокочастотная лексика формирует ядро лексической системы, в ее состав входят лексемы, репрезентирующие базовые, т.е. наиболее значимые, для представителей отдельной речевой культуры понятия и концепты (Чурунина, Солнышкина, Ярмакеев, 2023).
Частотность как достоверный предиктор сложности дискурса рассчитывается при помощи списков частотности (Мартынова и др., 2020), создаваемых на основе репрезентативных и сбалансированных корпусов (Rudell, 1983: 460). Современные частотные словари содержат две числовые характеристики слов: их частотность, т.е. количество вхождений в определенном корпусе, и ранг или порядковый номер слова в частотном списке1.
Осмысление эмпирической закономерности распределения частот отдельных слов естественного языка, т.е. лемм, началось c выдающихся работ Дж.К. Ципфа (Гиндин, 1982), доказавшего, что частотность леммы в упорядоченном по частотности списке обратно пропорциональна ее порядковому номеру в списке, т.е. рангу2. Разработки компьютерных программ для статистического анализа языковых данных в значительной степени ускорили этапы исследований частотности лексики. Выявлению и валидации структурно-количественных закономерностей построения словаря и текста посвящены работы многих авторов, использующих частотные словари как лингвистические модели, изучение свойств которых способствует выявлению законов функционирования языка (Арапов, 1982; Орлов, 1978; Турыгина, 1988; Чурунина, Солнышкина, Ярмакеев, 2023).
Современная научная парадигма в данной области имеет в качестве основных следующие постулаты: (1) достоверность данных частотных словарей как упорядоченного по частоте встречаемости слов в заданном репрезентативном корпусе зависима от его размера, т.е. объема; (2) частотность лексики — один из наиболее значимых предикторов сложности (Лапошина, Лебедева, 2021), и поэтому имеет высокую степень значимости (Соловьев, Солнышкина, Макнамара, 2022).
Учебники филологического предметного блока, т.е. русского языка и литературы, готовят школьника к грамотному использованию русского языка в разных его контекстах (Solovyev et al., 2021), а также призваны формировать целостный и социально ориентированный взгляд на мир (Solnyshkina, Gafiyatova, 2014). Ожидается, что учебники представляют собой усредненную модель русского языка и литературы, отражая актуальные для школьника темы и постепенно наращивая объем лексического состава от простого к более сложному (Лапошина и др., 2019).
Сравнение, частотных списков учебников осуществляется в современной научной парадигме с применение двух мер: покрытие лексики («coverage») и обогащение лексики («enrichment»), предложенных Марко Барони (Baroni et al., 2009) и далее описанных О.В. Блиновой (Блинова, 2019). Меры призваны определить количество совпадающих слов в сравниваемых списках, т.е. в какой степени количество лемм в одном частотном списке «покрывается» количеством лемм в другом списке. «Обогащение» одного частотного списка относительно другого определяет долю новых слов (лемм) в корпусе при переходе из класса в класс (Блинова, 2019).
В рамках исследования проведено сравнение частотных списков лемм, имеющих относительную частоту больше или равно 5, а леммы с частотностью ниже данного порога, в полном соответствии с традицией современной научной парадигмы (Лапошина, Лебедева, 2022) исключили из списка. В основе указанной традиции лежит положение о том, что появление в тексте редкого слова рассматривается как случайное, поскольку обусловлено исключительно решением автора для представления специфического задания или, например, прецедентного текста (Немова, 2015). Слова с низкой частотностью не предназначены для освоения школьниками и поэтому не включаются в списки лексического «обогащения». Низкочастотные слова образуют множество так называемых «легоменов», в которое входят гапакс легомены (от греч. hapax legomenon «сказанное однажды»), т.е. слова, использованные в корпусе единожды (Творогов, 1995), дважды (dis), трижды (tris), и четырежды (tetrakis) (Malmkjær, 2002). Например, слова дурачина и простофиля в Частотном словаре 5 класса встречаются три раза и имеют источником исключительно текст «Сказки о золотой рыбке». Редкая лексика обычно используется в изучаемых учебниках для демонстрации специфических языковых явлений. Так, например, слово фонарщик3 используется в тексте учебника единожды только для отработки и закрепления суффикса -щик. Многие устаревшие слова также встречаются в текстах учебников однократно: Вяземский (1[4]), фолиант (1).
Сложные дефисные слова также составляют отдельный пласт редкой лексики, например, слово-образец (4), ученый-лингвист (3), медленно-медленно (3), рассуждение-доказательство (3), дятел-самец (3), город-крепость (2) и т.д. Знание этих слов необходимо для сохранения национальной культуры и пополнения словарного запаса учеников, однако они в значительной степени повторяют простые слова. При этом важно подчеркнуть, что низкочастотная лексика представляет особый интерес для исследователей, поскольку является «потенциально недооцененной в имеющихся пособиях лексикой» (Лапошина, Лебедева, 2022: 92), однако в рамках нашей работы рассматривается как перспектива исследования.
Цель исследования — выявление специфики словарного состава учебников филологического блока 5, 6 и 7 классов российских школ. Планируется определить (1) объем лексики в изучаемых учебниках, (2) частотность использованных в них слов и (3) динамику изменения лексического состава.
Методы и материалы
Алгоритм исследования учебников филологического блока включает:
- Создание исследовательского корпуса учебников по русскому языку и литературе для 5–7 классов.
- Усовершенствование методики формирования списков частотности лексики с использованием программ современной компьютерной лингвистики.
- Формирование списков частотности лексики учебников филологического блока 5–7 классов, включающее следующие этапы: 1) преобразование текстов в формат TXT; 2) токенизация текстов при помощи программы IKSWEB, предполагающая разбиение всех текстов на словоформы (токены); 3) лемматизация, т.е. приведение всех словоформ (токенов) к соответствующей лемме; 4) удаление (А) следующих групп слов: а) имена собственные, номинирующие героев художественных произведений и частных лиц, например, Саша, Леня, Даша и т.д. При этом в списке были сохранены все именованные сущности, представляющие специальные знания, например имена писателей, поэтов, известных деятелей, топонимы и проч.; б) числительные; в) стоп-слова, слова, затрудняющие индексирование страницы поисковыми системами (частицы, союзы, предлоги и т.д.); (Б) специальных символов, включая ударение и диакритические знаки; 5) снятие грамматической омонимии осуществлялось автоматически на основании контекста слова, например, богатый имя прилагательное и имя существительное; 6) присвоение каждой лексеме частеречного тэга произведено при помощи доработанной авторами программной библиотеки Pymystem; 7) расчет абсолютной нормализованной частотности слова в тексте учебника Freq (ipt) по формуле
\( Freq (ipt) = \frac{m}{n} \times 1 000, \)
где m — количество употреблений словоформ в корпусе; n — количество словоформ в корпусе без учета числительных и служебных частей речи; 8) присвоение каждой лемме ранга частотности на основе упорядоченного по частоте списка лемм, соответственно, ранг 1 присваивается самому частотному слову в корпусе, ранг 2 — менее частотному слову и т.д.
- Выявление динамики изменения лексического состава учебников, т.е. словарного обогащения на каждом из этапов: 5→6, 6→7 на основе сравнительного анализа списков частотности учебников 5, 6 и 7 классов.
- Тематическая классификация словарного обогащения на каждом из этапов: 5→6, 6→7.
Материалом исследования послужил корпус учебников по русскому языку и литературе для 5–7 классов, входящих в федеральный перечень[5], т.е. допущенных к использованию организациями, осуществляющими образовательную деятельность на территории РФ, и выпущенных российскими издательствами «Просвещение», «Дрофа», «Русское слово», «Титул».
Исследовательский корпус учебников по русскому языку и литературе для 5–7 классов включает 66 учебников и 1 553 224 словоформ (табл. 1). Корпус содержит генеральную совокупность всех учебников ФГОС 2022 г., поэтому может быть признан сбалансированным и репрезентативным. Метаописание учебников содержит указания на жанр, язык, год издания, год обучения, год изучения дисциплины, облегчая поиск в корпусе.
Таблица 1
Объем исследовательского корпуса[6]
Класс | Предмет | Количество учебников | Объем в словоформах |
5 | Русский язык | 12 | 352332 |
6 | Русский язык | 12 | 323259 |
7 | Русский язык | 8 | 355296 |
Всего | 32 | 1030887 | |
5 | Литература | 12 | 184 936 |
6 | Литература | 12 | 178 619 |
7 | Литература | 10 | 158 782 |
Всего | 34 | 522 337 | |
ИТОГО | 66 | 1 553 224 | |
Table 1
Size of the research corpus
Grade | Subject | Textbooks | Volume in wordforms |
5 | Russian | 12 | 352332 |
6 | Russian | 12 | 323259 |
7 | Russian | 8 | 355296 |
In total | 32 | 1030887 | |
5 | Literature | 12 | 184 936 |
6 | Literature | 12 | 178 619 |
7 | Literature | 10 | 158 782 |
In total | 34 | 522 337 | |
TOTAL | 66 | 1 553 224 | |
Основу и достоверность результатов исследования обеспечили следующие критерии отбора: (1) общая предметная область — филология; (2) структурированность и сбалансированность по уровням обучения и объему — корпус разделен на три подкорпуса по уровням обучения: 5, 6 и 7 классы; (3) период выпуска учебника — одно десятилетие, с 2012 до 2022 г. Данные критерии обусловили выполнение всех принципов построения репрезентативного и сбалансированного корпуса: системность, жанровое единство, структурное единство, аутентичность и пр. (Нагель, 2008; Солнышкина, Гатиятуллина, 2020; Казачкова, Галимова, 2022) (см. табл. 1).
На основе лингвистического корпуса учебников по русскому языку и литературе для 5–7 классов было создано три частотных словаря: список из учебников филологического блока 5 класса состоит из 8984 лемм, 6 класса — из 7572 лемм, и 7 класс включает в себя 7321 лемм. Каждая лемма в списке снабжена двумя индексами: частотностью и рангом. Аналогично «Частотному словарю русского языка» под редакцией Л.Н. Засориной (1977) слова с одинаковой частотой имеют одинаковый ранг. Словари 5 и 7 классов запатентованы (Свидетельства о государственной регистрации № 2024622527, № 2024623508[7]). Заявления о патентовании словаря 6 класса находится на рассмотрении.
Исследование осуществлялось с использованием методов корпусной и компьютерной лингвистики, а также сравнительно-сопоставительного и статистического методов. Токенизация текстов была произведена при помощи программы IKSWEB8. Списки частотности разрабатывались в среде Google Colab9, предназначенной для разработки и выполнения программного кода в облаке с помощью библиотеки Pandas10. Для анализа слов использовались библиотеки NLTK11 и Pymorphy12.
Результаты
Изучение динамики изменения и лексического состава филологического корпуса учебников 5–7 классов выявило ядро наиболее частотной лексики — 1211 лемм, объединенных в шесть основных тематических групп: «Термины», «Учебные действия», «Родственные и дружеские отношения», «Профессии», «Искусство», «Время».
Лексическое обогащение на этапе 5→6 классы составило 258 лексем, на этапе 6→7 — 150 лексем. В 6 классе словарный запас учащихся обогащается за счет историзмов и архаизмов, терминов, характеризующих формы общенационального языка и терминов словообразования. Обогащение частотных словарей учащихся 7 класса осуществляется за счет лингвистических терминов по теме «Наименования глагольных форм», лексики по теме «Религия» и общественно-политической лексики.
Доля лексического ядра в общем объеме каждого из учебников находится в диапазоне от 13 до 17 % и составляет: 13,4 % в 5 классе, 15,9 % в 6 классе, 16,5 % в 7 классе.
Нормализованная частотность наиболее частотных лемм в изученных подкорпусах 5–7 классов находится в диапазоне от 128 до 5. Данная лексика является подтверждением преемственности и согласованности словарного состава рассмотренных учебников и ядерного положения терминологии в текстах изучаемых учебников.
Обсуждение
Разработка частотных словарей учебников филологического блока 5–7 классов опиралась на методику отечественной квантитативной лексикографии, применяемую семь десятилетий. Создаваемые первоначально исключительно для прикладных задач, а именно для совершенствования систем стенографии и методики обучения языкам (Несова, Бобрицких, 2018), частотные словари занимают достойное место в прикладной лингвистике. Особо следует указать на два первых частотных словаря русского языка: (1) словарь Г. Йоссельсона, изданный для преподавания русского языка в США (Josselson, 1953) и частотный словарь Э.А. Штейнфельд[13], разработанный и опубликованный в Эстонии с целью определения лексического минимума детей-инофонов в начальной и средней школах (Shteifeldt, 1963). Словарь Э.А. Штейнфельд был составлен на основе статистических подсчетов встречаемости слов в коллекции текстов объемом свыше 400 тысяч слов, в которую входили тексты оригинальной (А. Гайдар, Н. Носов, Э. Успенский) и переводной (Марк Твен, Ханс Кристиан Андерсен, Шарль Перро) художественной литературы, молодежных газет, журналов и материалов радиопередач для молодежи (Shteifeldt, 1963). На основе данного словаря были составлены частотные словари-минимумы для учебных и методических целей. Таков, например, учебный словарь для зарубежных школ под редакцией Н.М. Шанского «4 000 наиболее употребительных слов русского языка»[14].
Словарь под редакцией Л.Н. Засориной[15] «отражает устойчивую часть лексики, общеупотребительную и нейтральную относительно темы, жанра, автора, составляющую общую основу для всех жанров и разновидностей современной речи» (Засорина, 1977). Словарь содержит около 40 тысяч единиц, охватывает не только язык художественной литературы, но также тексты СМИ. Однако корпус этого словаря значительно устарел: состав корпуса включает большое количество слов из идеологических источников периода 1920–1960 гг., например, работы советских государственных партийных деятелей, материалы съездов КПСС, а также средства массовой информации СССР (Ляшевская, Шаров, 2009). Именно поэтому слова социалистический, советский, товарищ, пятилетка и т.п. зафиксированы в данном словаре в первой сотне слов наряду со служебными словами.
Российские ученые активно создают и используют специализированные частотные словари общенаучной лексики[16] и словари языка поэтов и писателей[17]. В современной отечественной лингвистике особую значимость имеет частотный словарь русского языка под редакцией О.Н. Ляшевской и С.А. Шарова (2009)18, созданный на коллекции текстов Национального корпуса русского языка (НКРЯ)[19] 1950–2007 гг. Словарь представителен и имеет высокую степень сбалансированности жанрового многообразия материала, включает коллекцию текстов разных типов, жанров и стилей, в т.ч. и тексты русской литературы зарубежья.
Создаваемые в рамках нашего исследования частотные словари характеризуют, с одной стороны, язык учебного текста соответствующего класса, а с другой стороны, ядро и периферию его словаря. Лексическое ядро учебников, т.е. список лемм, частотность которых больше или равна 5 словоупотреблений на 1000, в учебниках 5 класса составляют 1211 лемм, 6 класса — 1794 леммы и 7 класса — 1947 лемм. Наиболее частотные лексемы приведены в табл. 2.
Таблица 2
Частотная лексика филологического предметного блока 5–7 классов
5 класс | 6 класс | 7 класс | |||
Лемма | Freq (ipt) | Лемма | Freq (ipt) | Лемма | Freq (ipt) |
правильно | 128 | звук | 52 | деепричастие | 67 |
сегодня | 125 | Россия | 44 | писать | 39 |
будущий | 101 | рассказ | 39 | страдательный | 31 |
существительное | 98 | читать | 38 | деепричастный | 29 |
сначала | 98 | категория | 37 | наречие | 26 |
инфинитив | 92 | утро | 37 | отглагольный | 26 |
наклонение | 69 | профессионализм | 34 | писать | 35 |
фрагмент | 59 | старославянизм | 32 | нарекать | 21 |
фольклор | 39 | едва | 24 | блудный | 18 |
качественный | 16 | печенег | 22 | обстоятельственный | 17 |
Table 2
Frequency of philological vocabulary in textbooks of grades 5–7
Grade 5 | Grade 6 | Grade 7 | |||
Lemma | Freq (ipt) | Lemma | Freq (ipt) | Lemma | Freq (ipt) |
right | 128 | sound | 52 | 67 | |
today | 125 | Russia | 44 | to write | 39 |
future | 101 | story | 39 | passive | 31 |
noun | 98 | to read | 38 | 29 | |
at first | 98 | category | 37 | adverb | 26 |
infinitive | 92 | morning | 37 | verbal | 26 |
mood | 69 | professionalism | 34 | to write | 35 |
fragment | 59 | Old Slavonism | 32 | to name | 21 |
folklore | 39 | barely | 24 | prodigal | 18 |
qualitative | 16 | pecheneg | 22 | circumstantial | 17 |
Общее лексическое ядро всех изучаемых учебников или «покрытие» составляют 1211 лемм.
Спектр тематического многообразия наиболее частотных слов «покрытия» весьма узок и включает небольшое количество основных групп (рис. 1). Тематический анализ, осуществленный на основе классификации Л.Г. Бабенко[20] выявил следующие группы: «Филологические термины» (1/3[21]), «Глаголы, обозначающие учебные операции» (1/6), «Природа» (1/7), «Родственные и дружеские отношения» (1/8), «Профессии» (1/9), «Искусство» (1/10), «Время» (1/10). Оставшийся пласт лексики составляют лексические единицы, принадлежащие различным тематическим группам.
Рис. 1. Нормализованная частотность лексем ядра «перекрытия»
Источник: составлено Х.Н. Галимовой, Е.В. Мартыновой, С.А. Москвичевой с использованием программы Microsoft Excel.
Figure 1. Normalized frequency of the “coverage”
Source: Compiled by Kh.N. Galimova, E.V. Martynova, S.A. Moskvitcheva using the Microsoft Excel program.
Наибольшую частотность демонстрируют терминологические единицы (наречие (52[22]), наклонение (32), роман (20) и др.), составляющие примерно одну треть общего лексического ядра и демонстрирующие значительный рост по сравнению с аналогичным блоком в текстах учебников начальной школы. Предшествующие исследования показали, что «набор» терминологической лексики в текстах учебников начальной школы «весьма ограничен: несмотря на то, что формулировки заданий и справочная информация занимают более 60 % объема учебника, лексика этих блоков составляет 11 % от всех уникальных лемм учебника» (Лапошина и др., 2019: 6). Высокая частотность и наполняемость тематической группы «Термины» в изучаемых учебниках свидетельствуют о росте абстрактности текстов учебников филологического блока средней школы.
1/6 часть лексического «покрытия» принадлежит глаголам, обозначающим учебные операции (повторять (26), списать (19), просмотреть (39)). Они занимают второе место по количеству входящих в них единиц. На третьем месте — тематическая группа «Природа», в составе которой высокую частотность имеют лексические единицы подгруппы «Растения» (каштан (13), пальма (12), бессмертник (6)) и «Животные» (медведь (11), лев (11), сокол (6)). Далее следует группа «Родственные и дружеские отношения» (сын (29), падчерица (22), товарищеский (5)) и «Профессии» (актер (7), певица (7), плотник (6)). Лексические единицы тематической группы «Искусство» также имеют высокую нормализованную частотность: оркестр (7), опера (6), хор (8). В эти списки вошли и различные слова с семантикой «Время» (навсегда (7), редко (6), наспех (5)).
Сопоставление частотных словарей позволило обнаружить и изменения в их составе: при переходе от класса к классу совершенствуется навык чтения учащихся, вместе с тем увеличиваются словарный запас и лексическое разнообразие. На рис. 2 представлено «обогащение» лексики, т.е. увеличение объема лексического состава при переходе из класса в класс, на каждом из этапов. Список «обогащения» этапа 5→6, т.е. лексем, впервые появляющихся в учебниках 6 класса и имеющих частотность больше или равно 5, включает 258 лексических единиц. Аналогичный список этапа 6→7 содержит 150 лексических единиц (рис. 2).
Рис. 2. Размер списков обогащения лексики филологического блока на этапах 5→6 и 6→7
Источник: составлено Х.Н. Галимовой, Е.В. Мартыновой, С.А. Москвичевой с использованием программы Microsoft Excel.
Figure 2. Vocabulary enrichment lists at stages 5→6 and 6→7
Source: Compiled by Kh.N. Galimova, E.V. Martynova, S.A. Moskvitcheva using the Microsoft Excel program.
Как мы видим, список обогащения на этапе 5→6 значительно превосходит список 6→7.
В табл. 3 приведены 10 наиболее частотных слов, которые пополнили частотные словари русского языка и литературы в 6 и 7 классах соответственно.
Таблица 3
Обогащение лексики в учебниках 6 и 7 классов
Ранг | 5→6 классы | 6→7 классы | ||
Лемма | Частотность | Лемма | Частотность | |
1 | категория | 37 | деепричастие | 67 |
2 | определительный | 36 | страдательный | 31 |
3 | профессионализм | 34 | деепричастный | 29 |
4 | старославянизм | 32 | наречие | 26 |
5 | суффиксальный | 28 | отглагольный | 26 |
6 | архаизм | 26 | праведник | 19 |
7 | аршин | 26 | культурный | 19 |
8 | жаргонизм | 24 | завет | 17 |
9 | печенег | 22 | обстоятельственный | 17 |
10 | историзм | 22 | оппонент | 11 |
Table 3
Vocabulary enrichment in textbooks of Grades 6 and 7
Rank | Grades 5→6 | Grades 6→7 | ||
Lemma | Frequency | Лемма | Frequency | |
1 | category | 37 | Participle | 67 |
2 | definitive | 36 | passive | 31 |
3 | professionalism | 34 | verbal participle | 29 |
4 | Old Slavonic | 32 | adverb | 26 |
5 | suffix | 28 | verbal | 26 |
6 | archaism | 26 | saint | 19 |
7 | Arshin | 26 | cultural | 19 |
8 | jargon | 24 | covenant | 17 |
9 | Pecheneg | 22 | circumstantial | 17 |
10 | istorizm | 22 | opponent | 11 |
При переходе из класса в класс объем материала расширяется, добавляются новые темы. Обогащение словарного запаса учащихся 6 класса осуществляется за счет лексики следующих тематических блоков (табл. 4): (1) устаревшие слова (историзмы и архаизмы), составляющие около 25 % от всей лексики: аршин (26[23]), опричник (13), губерния (11), атаман (9), объездчик (6), милостивый (6), сажень (10), быличка (9) и др.; (2) термины, характеризующие формы общенационального языка, около 25 %: архаизм (26), жаргонизм (24), историзм (22) и др.; (3) термины словообразования, составляющие около 35 %: вопросительно-относительный (19), суффиксальный (28), бессуффиксный (21).
Таблица 4
Тематическое обогащение лексики в учебниках 6 и 7 классов
5→6 классы | 6→7 классы | ||
Лексика | Доля от общего количества слов, % | Лексика | Доля от общего количества слов, % |
Устаревшие слова (архаизмы-историзмы) | 25 | Наименования глагольных форм | 25 |
Термины, характеризующие формы общенационального языка | 25 | Религия | 30 |
Термины словообразования | 35 | Общественно-политическая | 25 |
Другие | 15 | Другие | 20 |
Table 4
Thematic vocabulary enrichment in Textbooks of Grades 6–7
Grades 5→6 | Grades 6→7 | ||
Vocabulary | Number of words, % | Vocabulary | Number of words, % |
Obsolete words (archaisms-historicisms) | 25 | Names of verb forms | 25 |
Terms characterizing forms of the national language | 25 | Religion | 30 |
Word-formation terms | 35 | Socio-political | 25 |
Other | 15 | Other | 20 |
Изучение устаревшей лексики способствует сохранению и трансляции культурного кода, популяризации традиционных устоев народов России. Устаревшие слова составляют «традиционный исторический пласт» (Генералова, 2019) и входят в состав национально- и культурно-учебной предмаркированной лексики русского языка.
В 7 классе обогащение частотных словарей осуществляется за счет (1) лингвистических терминов по теме «Наименования глагольных форм», составляющих около 25 % лексики (деепричастие (67[24]), отглагольный (26), страдательный (31), инфинитив (10) и др., (2) лексики по теме «Религия» — около 30 % (завет (17), псалом (7), псалтирь (6), мусульманский (9), благочестивый (6), святцы (5), праведность (5), монашество (5), христианка (5), христианский (5) и др.). Общественно-политическая лексика составляет примерно 10 %. Например, парламент (6), оппонент (11), стратегия (9) и др. Увеличение доли филологических терминов вполне закономерно, поскольку Рабочая программа учебной дисциплины «Русский язык» 7 класса предполагает обобщение и систематизирование знания учащихся о глаголе, причастии и деепричастии, причастном и деепричастном оборотах[25]. Знание религиозной лексики способствует не только формированию представления о материальной и духовной культуре своего народа, его прошлом, но также и формированию духовности, высокой нравственности, культуры и толерантности.
В целом лексический состав учебников «Русский язык» и «Литература» дает благодатный материал для воспитания важнейших качеств современного человека и формирования культурного кода.
Заключение
Результаты представленного исследования, имея высокую значимость для русистики, могут быть использованы для проведения ряда научных изысканий. Перспектива нашего исследования видится в следующих направлениях:
во-первых, корпус текстов учебников филологического предметного блока может быть использован для получения достоверных данных о жанровой специфике учебного текста. Верификацию на материале данного корпуса может получить, например, фиксируемая учеными гетерогенность лексической системы различных типов специализированных дискурсов. И хотя учебный текст включает преимущественно нейтральную и кодифицированную лексику, большой интерес в современных условиях «демократизации» учебного дискурса представляет вопрос о многообразии регистров, представленных в текстах учебников и тематическом наполнении их лексического состава;
во-вторых, логично предположить, и это может быть использовано как гипотеза будущего исследования, что текст учебника должен иметь преимущественно положительную или нейтрально окрашенную лексику. Автоматизированный контент- и сентимент-анализ иллюстративных текстов учебников русского языка позволит выявить отношение автора(-ов) к объектам, явлениям и событиям, речь о которых идет в тексте Особый интерес в этой связи представляет позиционирование наименований культурно-значимых для страны объектов;
в-третьих, весьма перспективным представляется проведение аналогичного исследования на материале учебных текстов филологического и других предметных блоков старшей школы для выявления внутри- и метапредметных связей.
1 Алексеев П.М. Частотные словари : учебное пособие. СПб. : Изд-во С.-Петерб. ун-та, 2001. 156 с.
2 Закон Ципфа: fr = c, где f — частота встречаемости слова в тексте; r — ранг, порядковый номер; c — постоянная величина, значение которой различается для разных языков.
3 Баранов М.Т., Ладыженская Т.А., Тростенцова Л.А. и др. Русский язык. 6 класс: учебник для общеобразоват. организаций : в 2 частях / науч. ред. Н.М. Шанский. 5-е изд. М. : Просвещение, 2015. 191 с. и 175 с.
4 Здесь и далее в скобках указана частотность слова в частотном словаре соответствующего класса.
[5] Приказ Министерства просвещения РФ от 21 сентября 2022 г. № 858 «Об утверждении федерального перечня учебников, допущенных к использованию при реализации имеющих государственную аккредитацию образовательных программ начального общего, основного общего, среднего общего образования организациями, осуществляющими образовательную деятельность и установления предельного срока использования исключенных учебников».
6 Библиографические данные исследовательского корпуса и список источников размещены на сайте НИЛ «Мультидисциплинарные исследования текста». URL : http://surl.li/zgmoqu (дата обращения : 24.06.2024).
7 Федеральный институт промышленной собственности. URL : https://www.fips.ru/elektronnye-servisy/informatsionno-poiskovaya-sistema/index.php (дата обращения : 15.05.2024).
8 SEO инструменты. URL : https://iksweb.ru/ (дата обращения : 15.05.2024).
9 Добро пожаловать в Colab! URL : colab.research.google.com/ (дата обращения : 15.05.2024).
10 PANDAS. URL : https://blog.skillfactory.ru/glossary/pandas/ (дата обращения : 15.05.2024).
11 NLTK. URL : https://www.nltk.org/ (дата обращения : 15.05.2024).
12 Морфологический анализатор pymorphy2. URL : https://pymorphy2.readthedocs.io/en/stable/ (дата обращения: 15.05.2024).
13 Штейнфельдт Э.А. Частотный словарь современного русского литературного языка : 2 500 наиболее употребительных слов / под ред. В.А. Ицковича. Таллинн : НИИ педагогики СССР, 1968. 316 с
14 Шанский Н.М., Даунене З.П., Бакеева Н.З., Гайдарова М.П., Карашева Н.Б., Судавичене Л.В. 4 000 наиболее употребительных слов русского языка / под ред. действ. члена АПН СССР Н.М. Шанского. М. : Рус. яз., 1979. 712 с.
15 Частотный словарь русского языка / под ред. Л.Н. Засорина. М. : Рус. яз, 1977. 936 с.
[16] Частотный словарь общенаучной лексики / под общ. ред. Е.М. Степановой. М. : Изд-во Моск. ун-та, 1970.
17 Словарь языка Пушкина : в 4 томах / отв. ред. акад. АН СССР В.В. Виноградов. 2-е изд., доп. / Российская академия наук. Ин-т рус. яз. им. В.В. Виноградова. М. : Азбуковник, 2000; Словарь языка Достоевского / гл. редактор Ю.Н. Караулов. М., Азбуковник, вып. 1, 2001. 442 с., вып. 2, 2003, 510 с.; Словарь поэтического языка Марины Цветаевой : в 4 томах. Т. 1 : А-Г / отв. ред. М.Ю. Белякова. М. : Дом-музей Марины Цветаевой, 1996. 320 с.
18 Ляшевская О.Н., Шаров С.А. Новый частотный словарь русской лексики. URL : http://dict.ruslang.ru/freq.php (дата обращения : 20.05.2024).
19 Национальный корпус русского языка. URL : http.www.ruscorpora.ru (дата обращения : 24.06.2024).
20 Большой толковый словарь русских существительных : свыше 15000 имен существительных, идеографическое описание, синонимы, антонимы / ред. Л.Г. Бабенко. 2-е изд., стереотип. М. : АСТ-ПРЕСС, 2008. 864 с.
21 В скобках указаны совокупные доли лексики соответствующей тематической группы.
22 В скобках указана нормализованная частотность слова в корпусе — Freq (ipt).
23 В скобках указана нормализованная на 1000 словоупотреблений частотность в учебнике 6 класса.
24 В скобках указана нормализованная на 1000 словоупотреблений частотность в учебнике 7 класса.
25 Рабочая программа (ID 4220440) учебного предмета «Русский язык. Базовый уровень» для обучающихся 7 классов. URL : https://1school-lobnya.ru/assets/files/program/2024-2025/2024_7_Русский%20язык.pdf (дата обращения : 12.06.2024).
Об авторах
Халида Нурисламовна Галимова
Казанский (Приволжский) федеральный университет
Автор, ответственный за переписку.
Email: galikha@mail.ru
ORCID iD: 0000-0003-1817-5004
SPIN-код: 7931-3389
кандидат филологических наук, старший научный сотрудник НИЛ «Мультидисциплинарные исследования текста» института филологии и межкультурной коммуникации
Российская Федерация, 420008, г. Казань, ул. Кремлевская, д. 18Екатерина Владимировна Мартынова
Казанский (Приволжский) федеральный университет
Email: katerinamarty@yandex.ru
ORCID iD: 0000-0001-5883-0718
SPIN-код: 9431-7981
старший преподаватель кафедры теории и практики преподавания иностранных языков, младший научный сотрудник НИЛ «Мультидисциплинарные исследования текста» института филологии и межкультурной коммуникации
Российская Федерация, 420008, г. Казань, ул. Кремлевская, д. 18Светлана Алексеевна Москвичева
Россйский университет дружбы народов
Email: moskvitcheva-sa@rudn.ru
ORCID iD: 0000-0002-8047-7030
SPIN-код: 9596-7692
кандидат филологических наук, доцент кафедры общего и русского языкознания, филологический факультет
Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, д. 10/2Список литературы
- Арапов М.В. Текст и язык - целостность и организменность // Учен. зап. тартуского ун-та. Тарту, 1982. Вып. 628.
- Блинова О.В. Низкочастотные слова в русском языке и подходы к моделированию общеязыковой частотности // Социо- и психолингвистические исследования. 2019. № 7. С. 7-13.
- Генералова Е.В. Устаревшая лексика русского языка: вопросы преподавания и лексикографической интерпретации // Journal of applied linguistics and lexicography. 2019. № 2. С. 370-380. https://doi.org/10.33910/2687-0215-2019-1-2-371-380
- Гиндин С.И. Частота слова и его значимость в системе языка // Tartu ülikooli toimetised. 1982. Вып. 658. С. 22-54.
- Глинкина Л.А. Частотность как значимый регистр лексикографии и фразеографии // Проблемы истории, филологии, культуры. 2011. № 3 (33). С. 7-11.
- Казачкова М.Б., Галимова Х.Н. Создание лингвистического корпуса учебников английского языка // Иностранные языки в школе. 2022. № 2. С. 32-38.
- Коростелева Л.В. Высокочастотные имена существительные, прилагательные и числительные в современном русском языке (по материалам лексикографии) : монография. Нижневартовск : Изд-во Нижневарт. гос. ун-та, 2013. 115 с.
- Лапошина А.Н., Веселовская Т.С., Лебедева М.Ю., Купрещенко О.Ф. Лексический состав текстов учебников русского языка для младшей школы: корпусное исследование // Компьютерная лингвистика и интеллектуальные технологии : по материалам международной конференции «Диалог 2019». 2019. T. 18 (25). С. 351-363.
- Лапошина А.Н., Лебедева М.Ю. Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному // Русистика. 2021. Т. 19. № 3. С. 331-345. https://doi.org/10.22363/2618-8163-2021-19-3-331-345
- Лапошина А.Н., Лебедева М.Ю. Формирование частотного словаря-минимума русского языка для детей-инофонов на основе корпусных данных // МИРС. 2022. № 3. С. 90-99. https://doi.org/10.24412/1811-1629-2022-3-90-99
- Мартынова Е.В., Солнышкина М.И., Мерзлякова А.Р. Лексические параметры учебного текста (на материале текстов учебного корпуса русского языка) // Филология и культура. 2020. № 3 (61). С. 72-80. https://doi.org/10.26907/2074-0239-2020-61-3-72-80
- Нагель О.В. Корпусная лингвистика и ее использование в компьютеризированном языковом обучении // Язык и культура. 2008. № 4. С. 53-59.
- Немова А.Н. Прецедентные тексты как культурный код в процессе изучения литературы // Нижегородское образование. 2015. № 1. С. 22-26.
- Несова Н.М., Бобрицких Л.Я. Представление словаря в теоретической и учебной лексикографии // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2018. Т. 9. № 2. С. 439-450. https://doi.org/10.22363/2313-2299-2018-9-2-439-450
- Орлов Ю.К. Модель частотной структуры лексики // Исследования в области вычислительной лингвистики и лингвостатистики. М., 1978. С. 59-118.
- Солнышкина М.И., Гатиятуллина Г.М. История развития корпусной лингвистики (на примере англоязычных корпусов) // Вестник Томского государственного университета. Филология. 2020. № 63. С. 133-157. https://doi.org/10.17223/19986645/63/8
- Творогов О.В. Гапаксы «Слова» // Энциклопедия «Слова о полку Игореве» : в 5 томах. СПб. : Дмитрий Буланин, 1995. Т. 2. С. 12-15.
- Соловьев В.Д., Солнышкина М.И., Макнамара Д.С. Компьютерная лингвистика и дискурсивная комплексология: парадигмы и методы исследований // Russian Journal of Linguistics. 2022. Т. 26. № 2. C. 275-316. https://doi.org/10.22363/2687-0088-30161
- Турыгина Л.А. Моделирование языковых структур средствами вычислительной техники. М., 1988. 175 с.
- Чурунина А.А., Солнышкина М.И., Ярмакеев И.Э. Лексическое разнообразие как предиктор сложности учебников по русскому языку // Русистика. 2023. Т. 21. № 2. С. 212-227. https://doi.org/10.22363/2618-8163-2023-21-2-212-227
- Baroni M., Bernardini S., Ferraresi A., Zanchetta E. The WaCky Wide Web : A collection of very large linguistically processed webcrawled corpora // Language resources and evaluation. 2009. Vol. 43. Pp. 209-226.
- Malmkjær K. The linguistics encyclopedia. 2nd ed. London ; New York : Routledge, 2002. 87 p.
- Josselson H. The Russian word count and frequency analysis of grammatical categories of standard literary russian. detroit : Wayne University Press, 1953.
- Rudell A. Frequency of word usage and perceived word difficulty : Ratings of Kucera and Francis words // Behaviour research methods, instruments, & computers. 1993. No. 25 (4). Pp. 455-463.
- Shteifeldt E. Frequency dictionary of a modern Russian literary language : 2500 Most common words. Tallin, 1963. 316 p.
- Solnyshkina M., Gafiyatova E. Modern forestry English : Macro- and microstructure of low register dictionary // Journal of language and literature. 2014. Vol. 5. № 4. Pp. 220-224. https://doi.org/10.7813/jll.2014/5-4/47
- Solovyev V., Islamov M., Solnyshkina M., Kupriyanov R., Gafiyatova E. Sentiment analysis for Russian academic texts : A lexicon-based approach // CEUR workshop proceedings. 2021. 3090. Pp. 89-97.
Дополнительные файлы
И с т о ч н и к : составлено Х.Н. Галимовой, Е.В. Мартыновой, С.А. Москвичевой с использованием программы Microsoft Excel.
И с т о ч н и к : составлено Х.Н. Галимовой, Е.В. Мартыновой, С.А. Москвичевой с использованием программы Microsoft Excel.














