Application of educational data mining in subject learning at university
- Authors: Kotiurova I.A.1
-
Affiliations:
- Petrozavodsk State University
- Issue: Vol 21, No 2 (2024)
- Pages: 227-241
- Section: EVOLUTION OF TEACHING AND LEARNING THROUGH TECHNOLOGY
- URL: https://journals.rudn.ru/informatization-education/article/view/42756
- DOI: https://doi.org/10.22363/2312-8631-2024-21-2-227-241
- EDN: https://elibrary.ru/ONVIIG
- ID: 42756
Cite item
Full Text
Abstract
Problem statement. Digital technologies are being actively incorporated into all educational processes, in particular so-called “end-to-end technologies”, which among others include big data as a management tool within educational systems. However, the described examples of practical use of educational data analysis not for university management, but for specific subject teaching are yet limited. The aim of the study is to determine how big data can be applied to verify gaps in knowledge and learning progress and to adjust the educational track accordingly in the context of a particular university course. Methodology . The study was conducted at PetrSU utilizing the PACT (Petrozavodsk Annotated Corpus of Texts). PACT is a database that is continuously updated with students' texts in German. The texts are reviewed by experts who mark errors and assign a grade for the work. All information about mistakes is collected in a shared database, the visualization of which is accessible in the teacher's personal account. The paper presents charts and tables from this database and determines to what extent they can be used to analyze the progress of a particular student, a certain academic group or an entire course in the acquisition of a foreign language. Results . The feasibility of big data collection in the form of students' work in progress has been confirmed, which can then be effectively applied in teaching. The PACT linguistic corpus allows, on one side, to track progress in mastering individual topics and, on the other side, to verify gaps in students' knowledge and to adjust teaching methods to meet the needs. Conclusion . Digitalization of education can and should develop in the direction of creating databases that include students' works on various subjects. The prospects for the use of such big data technologies in the subject teaching are immense, so this area, currently underdeveloped due to various reasons, certainly deserves more attention from all participants of the system - from the ordinary teachers to researchers and managers responsible for the digital transformation of education.
Full Text
Постановка проблемы. Цифровизация образования уже повсеместно стала повседневной реальностью во многом благодаря тому, что одним из приоритетных проектов, утвержденных правительством РФ в 2016-2025 гг., стал национальный проект «Современная цифровая образовательная среда». Согласно его паспорту в редакции Протокола от 25 октября 2016 г. № 9, целью является создание «условий для системного повышения качества и расширения возможностей непрерывного образования для всех категорий граждан за счет развития российского цифрового образовательного пространства и увеличения числа обучающихся образовательных организаций, освоивших онлайн-курсы, до 11 млн человек к концу 2025 г.»[37]. Авторы сборника монографий «Трудности и перспективы цифровой трансформации образования» говорят о том, что цифровизация образования в России уже прошла несколько стадий от развития компьютерной грамотности и внедрения в учебный процесс информационно-коммуникационных технологий до современного этапа, начавшегося примерно с 2018 г., когда речь пошла уже о цифровой трансформации - применении цифровых технологий во всех процессах в образовании [1]. В ходе этой реформы обновляется все: планируемые образовательные результаты и содержание образования; педагогические методы и технологии обучения; организация учебной работы, инструменты (технические средства) для нее и управление этим процессом. При этом «для эффективной реализации потенциала цифровых технологий („сквозных“ технологий) необходимо ясно поставить задачи разработки цифровых решений для образования, адаптировать технологический потенциал к конкретным задачам, которые решают учителя и ученики, преподаватели и студенты, осваивая навыки, ценности и содержание образования в цифровую эпоху» [1, c. 285]. К упомянутым в приведенной цитате «сквозным» технологиям с апреля 2023 г. относят десять видов, в том числе большие данные (Big Data)[38]. Как отмечает В.В. Утемов: «Оперирование большими данными (Big Data) в образовании - это технология аналитики образовательной системы, включающей измерение, сбор, анализ и представление структурированных и неструктурированных данных огромных объемов об обучающихся и образовательной среде с целью понимания особенностей функционирования и развития образовательной системы» [2, c. 450]. Тема использования больших данных в образовании в последние годы набирает обороты, все чаще публикуются исследования с ключевыми словами «учебная аналитика» [3], «образовательная аналитика» [4], «аналитика образовательных данных» [5], являющими по сути синонимами [6]. Однако, по мнению экспертов, «отдельные кейсы стали появляться лишь в последнее время, а учебная аналитика все еще входит для наших соотечественников в число потенциальных направлений развития» [7, с. 59]. Кроме того, известные примеры использования больших данных в вузах преимущественно касаются инструментов управления в рамках образовательных систем, например, для определения вероятности отчисления студентов и прогнозов того, как будут учиться в будущем нынешние абитуриенты. [8-10] Подробно об использовании Big Data для доказательного развития образования и управления образованием пишет в своей монографии О.А. Фиофанова [11]. Однако педагоги не торопятся использовать большие данные в своей личной практике [12; 13]. Описанных примеров практического использования анализа образовательных данных не для управления вузом, а в конкретном предметном обучении, крайне мало. Как технологию будущего, где учителя могут выступать «инженерами образования, работающими на стыке между наукой о данных и педагогикой», описывает платформу DreamBox Learning одна из ее разработчиков Джесси Вулли-Уилсон[39]. DreamBox Learning - это платформа, помогающая школьникам изучать математику, а учителям на основе собранных данных корректировать учебную программу, отслеживать прогресс учеников и прогнозировать их успешность. Подобная платформа, только используемая в предметной области «Иностранный язык», разработана и в Петрозаводском государственном университете, где в единую базу собираются данные в виде студенческих письменных работ на немецком и французском языках. Цель исследования - определить, как большие данные могут быть использованы для верификации пробелов в знаниях и прогресса в обучении и соответствующей корректировки образовательного маршрута в рамках отдельно взятого предмета в вузе. Методология. Исследование проводилось в ПетрГУ на базе корпуса студенческих текстов ПАКТ (Петрозаводский аннотированный корпус текстов)[40]. ПАКТ - база данных, постоянно в текущем режиме пополняемая текстами студентов на немецком языке[41]. Студенты изучают эти языки с нуля, в то же время это профильный предмет образовательной программы направления «Педагогическое образование. Немецкий язык и английский язык». Тексты проверяются экспертами, которые размечают ошибки согласно классификации, состоящей из 90 пунктов, и выставляют оценку за работу. Вся информация об ошибках собирается в общую базу данных, визуализация которой доступна в личном кабинете преподавателя. Это позволяет анализировать развитие отдельно взятого студента, отдельной академической группы или целого курса в конкретном изучаемом предмете - немецкий язык. Более подробное описание корпуса, его структуры и метаданных можно найти в статье «Корпус студенческих текстов на немецком языке как источник данных для образования и науки» [14]. Результаты и обсуждение. Итак, ПАКТ представляет собой базу данных, содержащую информацию о текстах, их авторах и размеченных вручную ошибках. Графики, отражающие абсолютное и относительное (на каждые 100 токенов) число ошибок разного типа, формируются автоматически. Чтобы получить представление о том, сколько и какие именно ошибки допускает в текстах на немецком языке отдельно взятый студент, достаточно войти в личном кабинете преподавателя во вкладку «Дешборды» и установить фильтр по имени и фамилии студента. В качестве примера приведем графики ошибок двух разных студентов одной и той же академической группы (рис. 1.) Возможно посмотреть графики онлайн или скачать таблицы в формате cvs. Сопоставление графиков явно свидетельствует о разнице в типах и количестве ошибок, допускаемых студентами одной и той же академической группы. Например, студент N1 допускает значительно больше ошибок и по количеству, и по разнообразию типов, при этом наиболее частыми его ошибками являются склонение существительных, пропуски и пунктуация. Кроме того, в его текстах встретились ошибки на выбор предлога, склонение местоимений, неопределенный и нулевой артикли, модальные глаголы и некоторые другие, которые ни разу не были отмечены в текстах студента N2. В свою очередь, у студента N2 наблюдаются ошибки на порядок слов в отрицательном предложении, определенный артикль и на логику, которые не встретились в работах первого студента. Любой преподаватель по опыту знает, что «существуют значимые индивидуальные различия в успешности обучения детей у одного учителя, в одной школе, по одной образовательной программе» [15], что все студенты по-разному учатся и осваивают те или иные темы, но именно база данных позволяет наглядно представить конкретные сильные и слабые места каждого обучающегося. На основе этих статистических данных преподаватель может индивидуализировать учебный процесс, предложив студенту, во-первых, самостоятельно проанализировать статистику своих ошибок и обратить внимание на те темы, где доля ошибок наиболее высока, а, во-вторых, задав ему упражнения именно по тем темам, где это требуется. Хотя статистика типов и количества ошибок у всех студентов индивидуальная, с помощью базы данных можно оценить и общую картину усвоения языка в той или иной академической группе, получив график, аналогичный рис. 1, но актуальный для целой группы. При желании можно скачать данные по ошибкам в той или иной группе напрямую с сайта в виде таблицы Excel. Например, из приведенного в табл. 1 фрагмента статистики ошибок в одной из академических групп 3-го курса обучения видно, что преподавателю необходимо вернуться к повторению таких изученных ранее грамматических тем, как склонение прилагательных и существительных, а также обратить внимание обучающихся на отличия в пунктуационном оформлении вводных слов в русском и немецком языках, поскольку ошибки в знаках препинания в этой группе очень частотны, а обращение к текстам показывает, что во многих случаях речь идет о лишних запятых после слов и выражений, которые в русском эквиваленте оформляются пунктуационными знаками. Рис. 1. Графики ошибок двух студентов одной и той же группы Источник: составлено И.А. Котюровой. Изображение выглядит как текст, снимок экрана, Шрифт, линия Автоматически созданное описание Figure 1. Errors of two students of the same group Source: compiled by Irina A. Kotiurova. Большинство типов ошибок из табл. 1 соответствуют грамматическим темам, изучаемым на 1-м и 2-м курсах. Поскольку на 3-м курсе студенты допускают ошибки в базовых темах, то может возникнуть сомнение в качестве образовательного процесса. Чтобы это проверить, достаточно сравнить статистику ошибок на разных курсах, выставив соответствующие настройки фильтра. На рис. 2 представлены фрагменты графиков общей статистики ошибок на 1-м и на 5-м курсах, то есть на первом и последнем году обучения. Такое сравнение однозначно свидетельствует о прогрессе в освоении языка студентами, который проявляется, с одной стороны, в уменьшении общего числа ошибок, а, с другой стороны, в сдвиге типов ошибок на более сложные темы, изучаемые на продвинутом языковом уровне (рис. 2). Таблица 1 Статистика ошибок в одной из академических групп Тип ошибки Абсолютное число ошибок Количество ошибок на 100 токенов Орфография 370 0,48 Выбор лексемы 320 0,42 Склонение прилагательного 234 0,30 Пунктуация 220 0,29 Склонение 197 0,26 Неопределенный артикль 197 0,26 Пропуски 185 0,24 Род 128 0,17 Число 114 0,15 Порядок слов в придаточном предложении 110 0,14 Лишние элементы 109 0,14 Обратный порядок слов 102 0,13 Определенный артикль 92 0,12 Спряжение 74 0,10 Личное местоимение 61 0,08 Прямой порядок слов 59 0,08 Инфинитивные конструкции с zu 54 0,07 Выбор предлога 47 0,06 Союзы 41 0,05 Притяжательное местоимение 36 0,05 Претерит 33 0,04 Предлог, управляющий несколькими падежами 32 0,04 Рамочная конструкция 31 0,04 Логика 28 0,04 Соединительные элементы 27 0,04 Нулевой артикль 26 0,03 Возвратное местоимение 25 0,03 Управление глаголов 25 0,03 Место второстепенных членов предложения 24 0,03 Сложные слова 24 0,03 Предлог с определенным падежом 22 0,03 Устойчивые обороты 21 0,03 Сильный глагол 19 0,02 Стиль 18 0,02 Местоимение 17 0,02 Порядковое числительное 16 0,02 Источник: составлено И.А. Котюровой. Table 1 Error statistics in one of the academic groups Error type Absolute number of errors Number of errors per 100 tokens Spelling 370 0.48 Choice of lexical item 320 0.42 Adjective declension 234 0.30 Punctuation 220 0.29 Noun declension 197 0.26 Indefinite article 197 0.26 Absence of a component 185 0.24 Genus 128 0.17 Noun number 114 0.15 Word order in an adjectival sentence 110 0.14 Redundant component 109 0.14 Inverted word order 102 0.13 Definite article 92 0.12 Conjugation 74 0.10 Personal pronouns 61 0.08 Standard word order 59 0.08 Infinitive constructions with “zu” 54 0.07 Choice of preposition 47 0.06 Conjunctions 41 0.05 Possessive pronouns 36 0.05 Preterite tense 33 0.04 Preposition controlling several cases 32 0.04 Frame construction 31 0.04 Logic 28 0.04 Connecting elements 27 0.04 Null article 26 0.03 Returning pronouns 25 0.03 Prepositional verb 25 0.03 Place of secondary members of a sentence 24 0.03 Compound words 24 0.03 Prepositions with definite case 22 0.03 Stable phrases 21 0.03 Strong verbs 19 0.02 Style 18 0.02 Pronouns 17 0.02 Order numerals 16 0.02 Source: compiled by Irina A. Kotiurova. Изображение выглядит как текст, линия, График, диаграмма Автоматически созданное описание Рис. 2. Графики ошибок в корпусе на 1-м (слева) и на 5-м (справа) курсах Источник: составлено И.А. Котюровой. Изображение выглядит как текст, диаграмма, График, снимок экрана Автоматически созданное описание Figure 2. Errors for course 1 (left) and course 5 (right) Source: compiled by Irina A. Kotiurova. Изображение выглядит как снимок экрана, текст, линия, диаграмма Автоматически созданное описание Рис. 3. Ошибки на орфографию в работах одного студента Источник: составлено И.А. Котюровой. Изображение выглядит как текст, снимок экрана, График, число Автоматически созданное описание Figure 3. Spelling errors in the texts of the same student Source: compiled by Irina A. Kotiurova. Прогресс в обучении можно верифицировать и в индивидуальной статистике. Данные корпуса ПАКТ позволяют посмотреть на изменения в картине ошибок у одного студента с течением времени. Это можно сделать в разных аспектах. Во-первых, можно проследить динамику статистики одного типа ошибки в разных сочинениях одного и того же студента. Например, на рис. 3 представлена визуализация количества ошибок на орфографию в 19 хронологически выстроенных работах одного студента с декабря 2020 по март 2023 г. Такая картина, безусловно, позитивна и отражает качественный рост работ данного студента. Во-вторых, можно посмотреть на динамику не по одному, а по всем типам ошибок на протяжении нескольких лет. Если нужен качественный анализ, а не только быстрая визуализация, лучше обратиться к таблицам Excell, которые затем можно сопоставлять в необходимом ракурсе. В качестве примера приведем таблицу с ошибками студентки N. на 1-м и 3-м годах обучения (табл. 2). Данные в таблице приводятся, начиная с самых частотных и далее в порядке убывания количества ошибок на 1-м курсе. Таблица 2 Ошибки студентки И. на 1-м и 3-м курсах обучения Тег ошибки 1-й курс, % от количества словоупотреблений 3-й курс, % от количества словоупотреблений Склонение прилагательных 1,20 0,02 Неопределенный артикль 0,89 0,00 Пунктуация 0,71 0,09 Склонение существительных 0,71 0,17 Пропуски 0,49 0,04 Выбор лексемы 0,44 0,19 Словообразование 0,36 0,00 Союзы 0,36 0,00 Обратный порядок слов 0,36 0,09 Орфография 0,31 0,15 Спряжение 0,31 0,00 Порядок слов в сложном предложении 0,31 0,11 Личные местоимения 0,27 0,04 Множественное число 0,22 0,15 Притяжательные местоимения 0,22 0,02 Род имени существительного 0,18 0,11 Инфинитивные конструкции с частицей zu 0,18 0,00 Логика 0,13 0,02 Определенный артикль 0,13 0,00 Числительные 0,13 0,00 Выбор временной формы 0,13 0,00 Образование временной формы 0,13 0,00 Стиль 0,09 0,02 Лишние элементы 0,09 0,11 Предлоги, требующие определенного падежа 0,09 0,00 Предлоги с дативом или аккузативом 0,09 0,02 Союзные слова 0,09 0,02 Прилагательные 0,04 0,00 Наречия 0,04 0,02 Устойчивые словосочетания 0,04 0,00 Управление имени существительного 0,04 0,00 Отрицательный артикль 0,04 0,00 Нулевой артикль 0,04 0,00 Указательные местоимения 0,04 0,00 Возвратные местоимения 0,04 0,00 Выбор предлога 0,04 0,00 Прямой порядок слов 0,04 0,00 Рамочная конструкция 0,04 0,00 Наклонение 0,00 0,02 Местоположение второстепенных членов предложения 0,00 0,04 Модальные глаголы 0,00 0,04 Источник: составлено И.А. Котюровой. Table 2 Errors of student I. in the 1st and 3rd year of study Error tag 1st year of study, % of word usage 3rd year of study, % of word usage Adjective declension 1.20 0.02 Indefinite article 0.89 0.00 Punctuation 0.71 0.09 Noun declension 0.71 0.17 Absence of a component 0.49 0.04 Choice of lexical item 0.44 0.19 Word formation 0.36 0.00 Conjunctions 0.36 0.00 Inverted word order 0.36 0.09 Spelling 0.31 0.15 Conjugation 0.31 0.00 Word order in a complex sentence 0.31 0.11 Personal pronouns 0.27 0.04 Noun number 0.22 0.15 Possessive pronouns 0.22 0.02 Genus 0.18 0.11 Infinitive constructions with “zu” 0.18 0.00 Logic 0.13 0.02 Definite article 0.13 0.00 Numerals 0.13 0.00 Choice of tense 0.13 0.00 Tense form 0.13 0.00 Style 0.09 0.02 Redundant component 0.09 0.11 Prepositions with definite case 0.09 0.00 Preposition controlling several cases 0.09 0.02 Connecting elements 0.09 0.02 Adjectives 0.04 0.00 Adverbs 0.04 0.02 Stable phrases 0.04 0.00 Prepositional noun 0.04 0.00 Negative article 0.04 0.00 Null article 0.04 0.00 Demonstrative pronoun 0.04 0.00 Returning pronouns 0.04 0.00 Choice of preposition 0.04 0.00 Standard word order 0.04 0.00 Frame construction 0.04 0.00 Inflection 0.00 0.02 Place of secondary members of a sentence 0.00 0.04 Modal verbs 0.00 0.04 Source: compiled by Irina A. Kotiurova. Таблица показывает в целом позитивную картину: практически по всем видам ошибок, допущенным на 1-м курсе обучения, у студентки наблюдается снижение или даже исчезновение их на 3-м курсе. Незначительный рост ошибок база данных указывает в темах «Лишние элементы», «Наклонение», «Местоположение второстепенных членов предложения» и «Модальные глаголы». В итоге по этим данным можно прогнозировать успешное освоение программы студенткой (весь курс обучения длится 5 лет), при этом рекомендуется обратить внимание на те темы, в которых наблюдается пусть и незначительный, но все же рост показателей ошибок. Заключение. Большие данные в образовании можно и нужно использовать не только на уровне управления образовательным учреждением, но и в предметном обучении. При этом речь идет не только о так называемом DDL (Data Driven Learning), при котором используются технологии корпусной лингвистики и готовые лингвистические корпуса носителей изучаемого языка, но и о создаваемых при вузе базах данных студенческих работ с соответствующей метаразметкой, позволяющей отслеживать динамику в обучении как отдельно взятого студента, так и академической группы или курса. Опытный преподаватель может быстро реагировать на показатели ошибок в группе и гибко выстраивать процесс обучения с учетом этих данных (например, добавить на занятие разбор или повтор той или иной темы). Статистика корпуса ПАКТ на цифрах показывает то, что все преподаватели знают по опыту: несмотря на одинаковые условия обучения, студенты по-разному усваивают материал, что требует более индивидуального подхода к обучению. И именно статистические данные, особенно если они подкреплены удобной для пользователя визуализацией, помогают преподавателю быстро подобрать индивидуальный образовательный маршрут с учетом соответствующих показателей. Планируется развитие корпуса ПАКТ и добавление в него возможностей не только составления автоматизированного упражнения на основе собственных текстов студента, но и генерации упражнений по определенному типу ошибки, которые будут использовать все тексты корпуса и предлагаться студенту в зависимости от его индивидуальной статистики типов ошибок. Таким образом, цифровизация образования может и должна развиваться в направлении создания баз данных, содержащих работы студентов по различным предметам. Перспективы использования таких больших данных в предметном обучении огромны, поэтому это направление, пока слабо развивающееся в силу разных причин, безусловно заслуживает более пристального внимания со стороны всех участников системы - от рядового преподавателя до исследователей и управленцев, отвечающих за цифровую трансформацию образования.About the authors
Irina A. Kotiurova
Petrozavodsk State University
Author for correspondence.
Email: koturova@petrsu.ru
ORCID iD: 0000-0001-6766-0458
SPIN-code: 7400-4245
Candidate of Sciences in Philology, Associate Professor, Head of the Department of German and French Languages
33 Lenina St, Petrozavodsk, 185910, Russian FederationReferences
- Uvarov AYu, Geibl E, Dvoretskaya IV, Zaslavskii IM, Karlov IA, Mertsalova TA, Sergomanov PA, Frumin ID. Difficulties and prospects of digital transformation of education. Moscow: HSE University; 2019. (In Russ.) https://doi.org/10.17323/978-5-7598-1990-5
- Utyomov VV, Gorev PM. Development of educational systems based on Big Data technology. Concept. 2018;6:449‒461. (In Russ.) https://doi.org/10.24422/MCITO.2018.6.14501
- Bystrova T, Larionova V, Sinitsyn E, Tolmachev A. Learning analytics in massive open online courses as a tool for predicting learner performance. Educational Studies. 2018;(4):139‒166. (In Russ.) https://doi.org/10.17323/1814-9545-2018-4-139-166
- Shirinkina EV. Methods of data mining and educational analytics. Modern Education. 2022;(1):51‒67. (In Russ.) https://doi.org/10.26456/2219-1453/2021.3.179-188
- Prusakova PV, Semyonkina IA. Application of educational data analytics to improve the quality of higher education. Prospects for the Development of Higher Education. 2023;(2):395‒400. (In Russ.)
- Kustitskaya TA, Noskov MV. Development of learning analytics in Russia. Informatization of Education and e-Learning Methodology: Digital Technologies in Education: Proceedings of the V International Scientific Conference, Krasnoyarsk, 21‒24 September 2021 (vol. 1). Krasnoyarsk; 2021. p. 273‒278. (In Russ.)
- Vilkova KA, Zakharova US. Learning analytics in conventional education: its role and outcomes. Journal University Management: Practice and Analysis, 2020;24(3):59‒76. (In Russ.) http://doi.org/10.15826/umpa.2020.03.026
- Pomian S, Belokon О. Forecast of the results of academic performance of university students based on Markov processes. Herald of Vyatka State University. 2020;(4):63–73. (In Russ.) http://doi.org/10.25730/VSU.7606.20.057
- Sverdlov MB. (ed.) Educational analytics: management of educational organisation and content creation based on data. Moscow: HSE University; 2021. (In Russ.)
- Barannikov KA, Suleymanov RS, Lesin SM, Kupriyanov RB. Learning analytics based on educational data mining methods as a way to improve the effectiveness of the education management system. Lomonosov Pedagogical Education Journal. 2020;20(2): 16–33. (In Russ.)
- Fiofanova OA. Big data analysis in the field of education: methodology and technologies. Moscow: Delo Publ.; 2020. (In Russ.)
- Krein U, Schiefner-Rohs M. Data in schools: (changing) practices and blind spots at a glance. Frontiers in Education. 2021;6:672666. http://doi.org/10.3389/feduc.2021.672666
- Hase A, Kahnbach L, Kuhl P, Lehr D. To use or not to use learning data: a survey study to explain German primary school teachers’ usage of data from digital learning platforms for purposes of individualization. Frontiers in Education. 2022;7. http://doi.org/10.3389/feduc.2022.920498
- Kotiurova IA, Shchegoleva LW. Learner corpus in German as a data source for education and science. Educational Studies. 2022;(4):322‒349. (In Russ.) http://doi.org/10.17323/1814-9545-2022-4-322-349
- Tikhomirova T, Malykh S, Kovas Yu. Individual differences in learning capabilities: opportunities and prospects of behavioral genetic research. Educational Studies. 2012; (4):186‒199. (In Russ.) https://doi.org/10.17323/1814-9545-2012-4-186-199
Supplementary files










