Application of the modified algorithm based on the use of self-organizing maps to identify student groups and build individual educational trajectories
- Authors: Gushchina O.M.1, Anikina O.V.1
-
Affiliations:
- Togliatti State University
- Issue: Vol 23, No 2 (2026)
- Pages: 196-210
- Section: PEDAGOGY AND DIDACTICS IN INFORMATIZATION
- URL: https://journals.rudn.ru/informatization-education/article/view/49913
- DOI: https://doi.org/10.22363/2312-8631-2026-23-2-196-210
- EDN: https://elibrary.ru/SJJQAP
- ID: 49913
Cite item
Full Text
Abstract
Problem statement. In the context of mass higher education, there is an urgent need for individualization of education and timely identification of student groups with different educational needs and risks. Existing methods of pedagogical analysis often do not allow effective segmentation of a diverse contingent of students based on multidimensional data on their academic performance and behavior, which makes it difficult to develop targeted support measures and build individual educational trajectories. Methodology. To solve this problem, applied and tested a tool based on the modified algorithm for self-organizing Kohonen maps (SOM) integrated with a cellular automaton and the quantile measure of dispersion. The study was conducted on the data of 400 students, which included academic and behavioral indicators that were previously standardized. Results. The algorithm has shown high efficiency in the automated identification of stable student groups with similar profiles, such as “at-risk students”, “motivated students” and “students with imbalance of attendance and academic performance”. The clustering quality is confirmed by the silhouette index (0.62), which exceeds the results of traditional methods, and by the visual representation of the results as well. Conclusion. The proposed approach provides teachers and the administration with an objective basis for meaningful interpretation of the data, the development of differentiated pedagogical strategies and the construction of individual educational trajectories aimed at improving the effectiveness of the educational process and reducing academic risks.
Full Text
Постановка проблемы. Современная система высшего образования сталкивается с необходимостью перехода от массового унифицированного подхода к индивидуализированному обучению, учитывающему персональные академические и поведенческие характеристики обучающихся [1-3]. Преподаватели и администрация образовательных учреждений ежедневно сталкиваются с трудностями своевременного выявления групп студентов, требующих дополнительной поддержки, и разработки для них индивидуальных образовательных траекторий [4-6]. Существующие традиционные методы оценки часто оказываются недостаточно эффективными для работы с разнородным контингентом обучающихся, обладающих различными академическими способностями, мотивацией и поведенческими характеристиками. В педагогической практике особенно остро ощущается необходимость в объективных инструментах, позволяющих не только оценивать текущую успеваемость, но и прогнозировать образовательные траектории, выявлять скрытые закономерности и группы студентов с общими характеристиками для адресной работы [7-10]. Ручной анализ больших массивов образовательных данных практически невозможен, что приводит к субъективности в принятии педагогических решений и запаздыванию оказания необходимой поддержки обучающимся. Проведенный анализ педагогических исследований показывает, что современная образовательная наука активно развивает подходы, основанные на данных. Особый интерес представляют работы, посвященные применению алгоритмов машинного обучения, в частности самоорганизующихся карт Кохонена (SOM), для решения задач образовательной аналитики [11]. А.Д. Дархан и др. [12] исследуют технологии и методы обучения нейросетевых моделей для применения в образовательной сфере. В работе Е.В. Чумаковой и др. [13] демонстрируется эффективность применения адаптивных нейросетевых систем для организации индивидуализированного обучения. Исследования А.А. Босова [14] подтверждают перспективность использования методов машинного обучения для динамической классификации обучающихся и построения индивидуальных образовательных траекторий. Особый интерес для педагогической практики представляют работы S. Milinković и др. [15], а также Y. Li и X. Chen [16], демонстрирующие возможности кластеризации студентов для раннего выявления академических трудностей и организации адресной поддержки. Однако существующие алгоритмы, включая стандартные реализации SOM, часто оказываются сложными для практического использования педагогами и недостаточно адаптированными для работы с образовательными данными. Особенностью образовательной информации является ее многоаспектность, включающая как объективные показатели успеваемости и посещаемости, так и субъективные поведенческие характеристики. Стандартные алгоритмы SOM демонстрируют чувствительность к аномальным значениям (выбросам) и требуют сложной ручной настройки параметров, что ограничивает их применение в образовательной практике. В связи с этим возникает потребность в разработке педагогически ориентированного инструментария на основе модифицированного алгоритма SOM, позволяющего: • выявлять устойчивые группы студентов со схожими образовательными профилями; • визуализировать сложные образовательные данные в доступной для педагогов форме; • разрабатывать обоснованные индивидуальные образовательные маршруты; • своевременно оказывать целенаправленную педагогическую поддержку. Таким образом, проблема исследования состоит в неэффективности существующих методов для анализа многомерных образовательных данных, что не позволяет педагогам своевременно выявлять группы студентов и строить для них индивидуальные образовательные траектории. Настоящее исследование направлено на разработку и апробацию модифицированного алгоритма самоорганизующихся карт Кохонена, адаптированного для решения конкретных педагогических задач по выявлению групп студентов и обеспечивающего содержательную интерпретацию результатов для последующего построения индивидуальных траекторий практикующими педагогами. Методология. Для решения поставленной проблемы разработки педагогически ориентированного инструментария применяется эмпирический количественный подход к анализу многомерных образовательных данных. Методика исследования строится на использовании модифицированного алгоритма самоорганизующихся карт Кохонена (SOM), адаптированного для работы с образовательными данными и обеспечения содержательной интерпретации результатов для педагогов. Эмпирическую базу исследования составили данные 400 студентов, включающие комплекс академических показателей (средняя оценка, результаты тестов по математике, английскому языку, информатике и информационной культуре) и параметров учебного поведения (посещаемость, участие в студенческих организациях, посещение консультаций). Выборка отражает разнообразие образовательных профилей и обеспечивает репрезентативность анализа. Обработка данных осуществлялась в несколько этапов. 1. Подготовка и предобработка данных. Проводилась агрегация данных из электронных систем управления обучением и административных баз данных. Особое внимание уделялось проверке полноты и корректности данных, устранению аномалий и выбросов, что обеспечивало высокое качество исходной информации для последующего анализа. 2. Стандартизация и масштабирование данных. Для обеспечения сопоставимости разнородных показателей применялись методы стандартизации и масштабирования данных, позволяющие привести различные образовательные параметры к единой метрической шкале. 3. Кластерный анализ на основе модифицированного алгоритма самоорганизующихся карт Кохонена, интегрированного с элементами клеточного автомата и квантильной дисперсионной меры, направленный на выявление групп студентов. Данные модификации позволяют алгоритму учитывать не только отдельные оценки, но и общие паттерны успеваемости, а также устойчиво относить студентов к группам даже при наличии нестандартных ситуаций в их учебной истории. Это повышает содержательность выделенных кластеров и обоснованность педагогических выводов. 4. Последний этап. Для обеспечения педагогической интерпретируемости результатов применялись: • карта расстояний (U-Matrix) для наглядного отображения групп (кластеров) и границ между ними; • алгоритм t-SNE для графического отображения сходств и различий между объектами. Для обеспечения достоверности результатов использовались методы тщательной предобработки данных и стандартизации, что минимизировало влияние случайных отклонений и систематических ошибок. Качество кластеризации оценивалось с помощью индекса силуэта, показавшего улучшенные значения по сравнению с классическими методами. Исследование проводилось с соблюдением этических норм, включая анонимизацию данных студентов и защиту персональной информации. Результаты представлены в агрегированном виде, что исключает возможность идентификации участников исследования. Предложенная последовательность этапов обеспечивает комплексный анализ образовательных данных и сочетает технические возможности модифицированного алгоритма SOM с педагогической интерпретацией результатов, что позволяет создавать практико-ориентированный инструментарий для поддержки принятия решений по построению индивидуальных траекторий в образовательном процессе. Результаты и обсуждение. Для выявления устойчивых закономерностей в академических и поведенческих показателях студентов использовались методы машинного обучения, адаптированные для исследовательских задач в образовании. Перед анализом данные прошли тщательную предобработку: были исправлены форматные ошибки и пропуски, числовые показатели приведены к сопоставимой шкале (нормализация), а также применено устойчивое масштабирование, уменьшающее влияние случайных отклонений и выбросов. Это обеспечило высокую надежность и достоверность последующего кластерного анализа. Данные для каждого студента, включающие академические и поведенческие характеристики, представлены в табл. 1. Таблица 1. Данные студентов Академические характеристики Поведенческие характеристики Результаты тестов 1 8,9 0 91 73 97 86 Высокий Да Да 2 7,6 10 97 90 66 84 Средний Нет Нет 3 9,1 1 81 81 68 66 Высокий Да Да 4 9,4 0 94 93 62 69 Высокий Да Нет ... ... ... ... ... ... ... ... ... ... 400 8,6 10 61 64 57 97 Высокий Да Да Источник: составлено О.М. Гущиной, О.В. Аникиной. Table 1. Students’ data Academic performance Behavioral characteristics Test results 1 8.9 0 91 73 97 86 High Yes Yes 2 7.6 10 97 90 66 84 Middle No No 3 9.1 1 81 81 68 66 High Yes Yes 4 9.4 0 94 93 62 69 High Yes No ... ... ... ... ... ... ... ... ... ... 400 8.6 10 61 64 57 97 High Yes Yes Source: compiled by Oksana M. Gushchina, Oksana V. Anikina. Перед применением саморганизующейся карты (SOM) все признаки были стандартизованы: у каждого значения вычиталось среднее значение и делилось на стандартное отклонение, в результате чего признаки получили среднее 0 и стандартное отклонение 1. Стандартизация важна, поскольку SOM опирается на расстояния между наблюдениями: без приведения к одной шкале признаки с большими числовыми диапазонами будут доминировать и искажать карту. Приведение данных к сопоставимым шкалам обеспечило корректную группировку и интерпретацию профилей студентов. Для эффективного анализа и интерпретации результатов была разработана методика поэтапной визуализации обученной карты SOM. Карта самоорганизующейся нейронной сети, отображающая группы студентов с похожими характеристиками и сохранением структурных взаимосвязей между данными, показана на рис. 1. Соседние узлы на карте соответствуют студентам с близкими академическими и поведенческими свойствами. Рис. 1. Карта самоорганизующейся нейронной сети Источник: создано О.М. Гущиной. Figure 1. Map of a self-organizing neural network Source: created by Oksana M. Gushchina. Визуализация карты расстояний между нейронами (U-Matrix) позволяет оценить структуру данных и выявить распределение кластеров на карте. Более темные области указывают на небольшие расстояния между нейронами, что свидетельствует о схожести характеристик студентов в этих областях. Маркировка данных на карте способствует идентификации принадлежности конкретных студентов к определенным нейронам и кластерам, что важно для педагогов при анализе индивидуальных и групповых особенностей обучающихся. После обучения SOM веса нейронов использованы как признаки для кластеризации методом k-means. Оптимальное число кластеров определялось с помощью метода локтя и индекса силуэта [9], оптимальным оказалось 3. Качество кластеризации оценивалось по индексу силуэта и визуальной интерпретации карт U-Matrix (табл. 2). Таблица 2. Индекс силуэта для трех методов Метод Индекс силуэта Модифицированный SOM + K-means 0,62 Классический SOM + K-means 0,54 K-means на исходных данных 0,48 Источник: составлено О.М. Гущиной. Table 2. Silhouette index for three methods Method Silhouette index Modified SOM + K-means 0.62 Classic SOM + K-means 0.54 K-means on the basis of original data 0.48 Source: compiled by Oksana M. Gushchina. Модифицированный SOM показал наилучшее качество кластеризации, что свидетельствует о более четком разделении групп студентов. В результате применения метода k-means к выходным данным SOM были выделены три устойчивых кластера студентов, различающихся по академической успеваемости и поведенческим характеристикам (рис. 2). Кластер 1 (136 студент) демонстрирует низкие показатели среднего балла (-0,36) при повышенном уровне пропусков (0,31). Данный профиль характерен для студентов, испытывающих системные трудности в освоении учебного материала и требующих целенаправленной педагогической поддержки. Для данной группы необходима разработка индивидуальной траектории с усиленной академической и мотивационной поддержкой. Кластер 2 (115 студентов) показывает высокую академическую успеваемость (0,53) при низком уровне пропусков (-0,22). Студенты данной группы отличаются стабильной учебной дисциплиной и могут рассматриваться как академически успешные. Индивидуальная траектория для них может быть ориентирована на углубленное изучение предметов, исследовательскую или проектную деятельность. Кластер 3 (149 студентов) характеризуется средними показателями как по успеваемости (-0,09), так и по посещаемости (-0,11). Данная группа представляет особый интерес для разработки профилактических мер, направленных на предотвращение возможного снижения академических показателей. Траектория может включать регулярный мониторинг, консультационную поддержку и вовлечение в активные формы обучения для поддержания и повышения мотивации. Применение K-means к признакам, полученным из SOM, позволило более четко сегментировать студентов по ключевым образовательным параметрам. Данная кластеризация открывает возможности для целенаправленного педагогического вмешательства и разработки индивидуальных стратегий поддержки и образовательных маршрутов в зависимости от потребностей каждой группы. Рис. 2. Комбинация алгоритма K-means и самоорганизующейся нейронной сети Источник: создано О.М. Гущиной. Figure 2. Combination of the K-means algorithm and a self-organizing neural network Source: created by Oksana M. Gushchina. Сочетание этих методов обеспечило более точную идентификацию представителей каждого кластера и выявление ключевых характеристик, определяющих принадлежность студентов к определенным группам. В дополнение к описанным методам для визуализации и снижения размерности исходных данных был применен алгоритм t-SNE, который эффективно отображает многомерные данные в двумерном пространстве, сохраняя локальную структуру (рис. 3). В результате визуализации алгоритмом t-SNE были выделены четыре группы студентов, каждая из которых обладает характерным профилем. Кластер 0: студенты данной группы демонстрируют относительно низкий уровень образовательных достижений и невысокую учебную активность, сопровождающуюся умеренным уровнем вовлеченности в поведенческие аспекты учебного процесса. Кластер характеризуется как группа студентов, испытывающих трудности с мотивацией и академической успешностью, что требует целенаправленных мер поддержки и вовлечения. Рис. 3. Визуализация алгоритмом t-SNE Источник: создано О.М. Гущиной, О.В. Аникиной. Figure 3. Visualization using t-SNE algorithm Source: created by Oksana M. Gushchina, Oksana V. Anikina. Кластер 1: эта группа характеризуется высокими образовательными результатами и активным участием в учебной и внеучебной деятельности, что отражает высокий уровень мотивации и ответственности. Такая группа студентов отличается высокой учебной мотивацией и социальной вовлеченностью, что способствует их успешной адаптации и развитию. Кластер 2: студенты показывают хорошие академические показатели при достаточно высокой учебной активности и значительном уровне вовлеченности в поведенческие аспекты, что свидетельствует о сбалансированном сочетании успехов и активности. Этот кластер можно интерпретировать как группу технически ориентированных, активных студентов, которым стоит рекомендовать повышение вовлеченности в консультационные мероприятия для улучшения академической поддержки. Кластер 3: в этой группе наблюдается средний уровень образовательных достижений при умеренной учебной активности и стабильном поведении, что указывает на сбалансированный, но менее выраженный профиль по сравнению с другими кластерами. Студенты данного кластера отличаются ответственным подходом к учебе и активным использованием ресурсов поддержки, что способствует поддержанию удовлетворительного уровня академической успеваемости. В результате кластерного анализа рассчитаны средние значения исследуемых показателей для каждого кластера, что позволило выделить их характерные профили. Визуализация (рис. 4) демонстрирует четкие межкластерные различия по всем включенным индикаторам, что обеспечивает наглядное сравнение групп и идентификацию их ключевых отличий. Рис. 4. Визуализация кластеров по образовательным и поведенческим показателям Источник: создано О.М. Гущиной, О.В. Аникиной. Figure 4. Visualization of clusters on the basis of educational and behavioral indicators Source: created by Oksana M. Gushchina, Oksana V. Anikina. Академические параметры проявляют существенную вариативность между кластерами: средние баллы значительно различаются, что отражает неоднородность учебных достижений. Кластеры с более высокими средними баллами характеризуются устойчивыми академическими практиками, тогда как кластеры с низкими значениями успеваемости требуют целенаправленных коррекционных мер и усиленной педагогической поддержки. Посещаемость также выступает информативным маркером учебной ответственности: кластеры с меньшей долей пропусков демонстрируют более дисциплинированное учебное поведение. Анализ по отдельным дисциплинам (математика, английский язык, информатика, информационная культура) выявил специфические паттерны успеваемости, что позволяет проводить сегментацию студентов по уровню владения ключевыми предметными компетенциями. Параллельно были исследованы поведенческие индикаторы, которые также показали значимые различия между кластерами. Уровень активности обучающихся и участие в студенческих организациях варьируют между группами, отражая различия в социальной вовлеченности и уровне инициативы. Частота посещений консультаций служит дополнительным показателем инициативности и потребности в академической поддержке. В совокупности академические и поведенческие профили позволяют выделять кластеры с различным риском академической неуспеваемости и разной потребностью в предоставлении дополнительной поддержки. Таким образом, полученные данные предоставляют возможность не только сегментировать студентов по их академическим и поведенческим характеристикам, но и выявить группы, требующие особого внимания и поддержки, что является основой для построения индивидуальных образовательных траекторий. Эти результаты создают основу для разработки более эффективных стратегий обучения и мотивации, а также для дальнейшего анализа факторов, влияющих на успех студентов. Заключение. Проведенное исследование подтвердило высокую практическую значимость применения модифицированного алгоритма самоорганизующихся карт для задач педагогической аналитики, в частности для выявления групп студентов со схожими профилями. Выявленные группы служат объективной основой для построения дифференцированных индивидуальных образовательных траекторий. Для студентов группы риска это могут быть траектории с усиленной академической и психолого-педагогической поддержкой. Для мотивированных студентов - траектории, ориентированные на углубление знаний и исследовательскую деятельность. Для студентов со средними показателями - профилактические траектории, направленные на стабилизацию и повышение успеваемости через вовлечение в активные формы обучения. Такой подход открывает перспективы для разработки адаптивных образовательных стратегий, направленных на поддержку уязвимых групп студентов и стимулирование их академической и социальной активности.About the authors
Oksana M. Gushchina
Togliatti State University
Email: g_o_m@tltsu.ru
ORCID iD: 0000-0003-2381-8537
SPIN-code: 2503-0348
Candidate of Pedagogic Sciences, Associate Professor, Institute of Digital Technologies
14 Belorusskaya St, Togliatti, 445020, Russian FederationOksana V. Anikina
Togliatti State University
Author for correspondence.
Email: blue-waterfall@yandex.ru
ORCID iD: 0000-0002-0676-0372
SPIN-code: 4972-9776
Candidate of Engineering Sciences, Associate Professor, Institute of Digital Technologies
14 Belorusskaya St, Togliatti, 445020, Russian FederationReferences
- Dahal NP, Shakya S. An Analysis of prediction of students’ results using deep learning. Computing Open. 2023;1:2350001. https://doi.org/10.1142/s2972370123500010
- Tjahyadi H, Tude KNL. The implementation of educational data mining in predicting students’ academic achievement in mathematics at a private elementary school. International Journal of Information and Education Technology. 2025;15(1):154–163. https://doi.org/10.18178/ijiet.2025.15.1.2228
- Popova NA, Egorova ES. Educational data mining for predicting the academic performance of university students. News of the Kabardino-Balkarian Scientific Center of RAS. 2023;(2):18–29. (In Russ.) https://doi.org/10.35330/1991-6639-2023-2-112-18-29 EDN: GXEHAC
- Kozlova OA, Protasova AA. The use of neural networks in distance education technologies for the identification of students. Open Education. 2021;25(3):26–35. (In Russ.) https://doi.org/10.21686/1818-4243-2021-3-26-35 EDN: SEQOEH
- Arshinsky VL, Provotorov VA. Applying artificial neuron networks and machine learning for predicting academic performance of higher education students. MCU Journal of Informatics and Informatization of Education. 2024;(4):61–72. (In Russ.) EDN: DNTMND
- Repkina NG. Prognozirovanie uspeshnosti obrazovaniya studentov texnicheskix napravlenij podgotovki s ispolzovaniem iskusstvennyx nejronnyx setej = Predicting the educational success of students in technical fields using artificial neural networks. Al’manax Mirovoj Nauki. 2016;(5-1):92–95. (In Russ.) EDN: WBOOQH
- Shamsutdinova TM. Problems and Prospects for the application of neural networks for the sphere of education. Open Education. 2022;26(6):4–10. (In Russ.) https://doi.org/10.21686/1818-4243-2022-6-4-10 EDN: UVOFLM
- Kazachonak VV. Application of neural networks in training. Informatics and Education. 2020;(2):41–47. (In Russ.) https://doi.org/10.32517/0234-0453-2020-35-2-41-47 EDN: CEYGED
- Lekomtseva EA. The use of neural networks in modern education. Bulletin of Naberezhnye Chelny State Pedagogical University. 2025;(1):137–140. (In Russ.) EDN: JITRJB
- Shamis VA, Kopylova AM, Panteleeva EA. Application of neural networks in the educational process of university students. Standards and Monitoring in Education. 2024;12(3):20–26. (In Russ.) https://doi.org/10.12737/1998-1740-2024-12-3-20-26 EDN: CZWYOM
- Zarubina NK, Ovchinkin OV, Pykhtin AI. Exploratory data analysis of foster campaigns’ results using Kohonen’s neural network when planning the number of students. Informatsionno-Izmeritelnye i Upravlyayushchie Sistemy. 2016;14(6):65–69. (In Russ.) EDN: WHTOAH
- Darkhan AD, Medeshova AB. Training neural networks in the field of education. Sovremennoe Professional’noe Obrazovanie. 2025;(4):40–43. (In Russ.) EDN: NJEFAU
- Chumakova EV, Korneev DG, Gasparian MS. An approach to the design of a neural network for the formation of an individual trajectory of knowledge testing. Journal of Applied Informatics. 2022;17(5):102–115. (In Russ.) https://doi.org/10.37791/2687-0649-2022-17-5-102-115 EDN: IDLNUS
- Bosov AV. Application of self-organizing neural networks to the process of forming an individual learning path. Informatics and Applications. 2022;16(3):7–15. (In Russ.) https://doi.org/10.14357/19922264220302 EDN: HJQANN
- Milinković S, Vujović V, Štaka Z, Vuković M. Clustering-based students’ descriptive model. In: 22nd International Symposium INFOTEH-JAHORINA (INFOTEH), 15–17 March 2023, East Sarajevo, Bosnia and Herzegovina. East Sarajevo: IEEE; 2023. p. 1–6. https://doi.org/10.1109/INFOTEH57020.2023.10094114
- Li Y, Chen X. Analysis of students’ academic achievements based on cluster analysis. In: Debayle J, Bai G, Yang Sh. (eds.). Proceedings of the 2nd International Conference on Information, Control and Automation, ICICA 2022, December 2–4, 2022, Chongqing, China. Chongqing: EAI; 2023. https://doi.org/10.4108/eai.2-12-2022.2327925
Supplementary files










