APPLICATION OF PEER-TO-PEER ASSESSMENT OF WRITTEN WORKS OF STUDENTS IN STREAM INTERNAL COURSES

Abstract


At reduction of contact time in subject matters the instruments of preservation of active forms of studying for students assuming independent research work are required. One of such forms is peer-to- peer evaluation of works (peer assessment) allowing to go beyond a narrow framework of automaticallychecked tests for the level of small research works. In article results of a two-year experiment on use of a piring on a stream course are given in MIEM Higher School of Economics National Research University taking into account specifics of audience rather mass online of courses.The received results and conclusions have formed a basis for modeling of ways of estimation of written works at peer-to-peer check without participation of the teacher. In an experiment schemes of estimation and motivation for management of a ratio of number of authors and reviewers have been fulfilled, and also the general questions of use of the offered system of assessment it is aware.

ВведениеПиринговая проверка, а также оценка, рецензирование (от англ. peer assessment (1), evaluation, review) - это способ проверки и оценивания письменных работ, когда работа одного автора проверяется несколькими независимыми рецензен- тами, обычно из одного с автором круга. В данном случае проверку осуществля- ли студенты того же потока. Как правило, для повышения объективности оцен- ки используется «слепой» или «двойной слепой» метод проверки, когда автор не знает, кто проверяет его работы, и когда проверяющий такжене знает, кто автор данной работы. Такой способ проверки или рецензирования активно использу- ется в научном мире при рецензировании публикаций перед печатью [3], а также в синхронных массовых онлайн-курсах, когда невозможно проверить задание автоматически, а ручная проверка при аудитории в несколько тысяч человек про- сто невозможна [4].Использование пиринга позволяет не только сократить время, потраченное преподавателем на проверку работ, но и изменить сам подход к обучению. По наблюдениям [8], в среднем на прочтение и комментирование студенческой ра- боты преподаватель тратит 20-40 минут, а в случае с массовым образованием количество работ и, соответственно, время труда пропорционально возрастают. Автор отмечает, что задания с peer review развивают у студентов навык чтения научной литературы и писательский навык - студентам приходится писать на- учные работы на доступном языке, а также учат составлять конструктивную кри- тику, в том числе отрицательную, что обычно вызывает сложности у студентов.Для peer review как формы учебной активности важной проблемой является мотивация студентов [2]. Yanqing Wang, Yaowen Liang, Luning Liu and Ying Liu раз- работали свою систему “EduPCR4” для проведения peer review программного кода [9]. Система предлагает три типа баллов для мотивации студентов: баллы, начисляемые за предоставление работы в срок, качественные баллы, зависящие от задания, и бонусные баллы, которые могут быть как положительными, так и отрицательными - зависит от единства мнения рецензентов. Данная модель мо- тивирует студентов к участию как автором, так и рецензентом.Обработка рецензий и расчет итоговой оценки является ключевой задачей, связанной с peer review. Hoi K. Suen рассмотрел распространенные методы об- работки результатов peer review [7]. Calibrated Peer Review (CPR) - подход, за- висящий от реальной успеваемости рецензента, что позволяет задать весовой коэффициент его рецензии. Bayesian post hoc stabilization построен на Байесовских моделях. Однако данный метод не учитывает систематические ошибки. Послед- ний подход широко применяется на популярном онлайн-ресурсе Coursera.org.Подход к построению учебного курсаДля краткого курса длительностью всего восемь недель на практике возможно провести всего две работы с пиринговой проверкой, учитывая, что на написание и на проверку работы дается по одной неделе, после каждой работы нужно оста- вить время на разбор итогов (коротко на лекции и подробно - на сайте поддерж- ки), чтобы в студенты учли свои ошибки в следующей работе или к зачету. К тому же это весьма ресурсоемкое мероприятие и для студентов, и для преподавателей.В такой ситуации хотелось избежать обычного для онлайн-курсов ground-truth тестирования, когда студентам дается набор эталонных, заранее проверенных экспертами работ и по результатам проверки этих работ студентами устанавли- вается, насколько оценка каждого студента близка к экспертной, далее их голоса учитываются с соответствующими поправочными коэффициентами.Подход к оценке работ студентов в курсеСтуденты имеют разные амбиции, интересы и способности. Обычный учебный план предполагает одинаковую траекторию для всего потока. Система оценок в курсе предполагала накопление баллов, и различные учитываемые в накопленной оценке активности в сумме давали существенно больше баллов, чем максималь- но возможная оценка в ведомости. Студент мог сам выбирать, каким образом ему зарабатывать себе баллы, и мог посчитать, какие виды активности вероятнее при- несут ему желаемые баллы. При этом, компенсируя отсутствие «отрицательной оценки» в традиционном понимании, здесь в шкале оценки отдельных видов работ могли присутствовать действительно отрицательные величины, т.е., начи- нающиеся с отрицательных чисел, и это наглядно демонстрировало влияние того или иного достижения или провала в каждом из заданий. Это не новый подход, он встречается в зарубежной практике, например, в [9], но в российских вузах он, если и практикуется, то на уровне инициативы преподавателей.Пиринговая проверка работ также не является распространенным инструмен- том в учебной практике в России, но отдельные преподаватели используют этот инструмент в своих курсах, например, в НИУ ВШЭ [6].Оценки за работы и за их рецензирование начинались с отрицательной шкалы. Так, при общей шкале возможных баллов около 200 (100 баллов в курсе соответ- ствовали максимальной оценке) письменная работа оценивалась в диапазоне 30 баллов, но от -9 до +20. Все задания были необязательными, но оговаривалось, что «необязательно» не значит «бесплатно». Так, не написавшие эссе получали«0», а не выполнившие в срок рецензирование получали минимальный балл, т.е.,«2». Работы, уличенные в превышении допустимого уровня заимствований, ав- томатически получали минимальный балл, т.е., «9».Критерии оценкиК заданию прилагалась таблица критериев оценки (2) с детальным описанием не только самих критериев, но и необходимого содержания по каждому критерию для получения того или иного балла. Критерии относились как к содержанию работы, так и к форме. Таблица критериев оценки - это самый важный элемент в постановке работы над пиринговой проверкой. Если требования сформулиро- ваны четко и заставляют обратить внимание автора (а позднее - рецензента) на различные стороны работы, то и сам процесс написания работы, удовлетворяю- щей требованиям, и процесс проверки таких работ становится полезным для сту- дента, так как учит объективности и непредвзятости.РецензентыБольшинство студентов из рассматриваемой выборки (второй курс бакалав- риата инженерного факультета) не имели навыков написания академических текстов, равно как и навыков проверки чужих работ - в школе этому не учат, а в институте ко второму курсу заняться научной или педагогической деятельностью они еще не успевают. Отсюда возникло опасение, что не только работы будут в среднем низкого качества, но, что важнее, их проверка окажется в руках столь же неквалифицированных рецензентов. Требовалось обеспечить значительное пре- восходство числа рецензентов над числом авторов, поскольку одну работу долж- ны проверить несколько человек и только в этом случае можно выявить возмож- ные расхождения во мнениях. В самой системе оценок в курсе закладывались стимулирующие меры для рецензентов и преграждающие - для авторов работ. Формально любой студент мог не писать и не проверять эти работы, если был уверен в успешности своих усилий в практической области (лабораторные рабо- ты дают достаточно высокий балл, если их выполнять добросовестно).Постановка эксперимента и используемые инструменты.Эксперимент проводился в 2013-2014 и 2014-2015 учебных годах. Основной65«площадкой» был потоковый курс «Компьютерная графика» на втором курсе бакалавриата факультета информационных технологий и вычислительной тех- ники МИЭМ НИУ ВШЭ.На этапе подготовки курса были изучены варианты существовавшего на тот момент программного обеспечения [10] и сервисов (например, iPeer (3)), но более детальное ознакомление с ними показало, что те немногие инструменты, которые удалось найти, были ориентированы на другой формат работы и не подходили, а для проведения исследований требовалась максимальная гибкость и возможность исправлять замеченные недоработки в сжатые сроки. В этой ситуации роль базы для экспериментов легла на сервисы Google Apps (тексты Google Documents, та- блицы Google Spreadsheets и формы Google Forms), а также сервис Blogger для публикации материалов курса.Обратная связь от студентов принималась через формы, что позволяло надеж- но собирать их ответы в таблицы с точным указанием времени отправки. Табли- цы, в свою очередь, позволяют автоматизировать обработку поступающей ин- формации при помощи формул и скриптов. Результаты публиковались на сайте. Так из документооборота были исключены этапы переписки со студентами по электронной почте или в месенджерах. Это отнюдь не исключало переписку для поддержки по содержательным или организационным вопросам, но все учебные транзакции стали проходить через формы и регистрироваться в таблицах, ис- ключая человеческий фактор из обработки.Далее, средствами Forms требовалось создать тесты, а средствами Spreadsheets - весь цикл подготовки и обработки информации пиринговой проверки. Для соз- дания тестов Forms подходит ограниченно, но в данном случае тесты проводились больше для напоминания студентам о курсе, заставляя их вернуться к темам лек- ций после этих лекций, фактически заменяя «повторение пройденного матери- ала». Существенно сложнее оказалось реализовать при помощи таблиц весь цикл обработки пиринговой проверки эссе. В первый год применялась полуавтомати- ческая обработка данных: использовались лишь формулы в таблицах, что не по- зволяло работать с персональной рассылкой электронной почты, ограничивало обработку массивов данных. На этом этапе были сформулированы задачи для автоматизации обработки и выявлены недостатки алгоритмов расчета оценок. С другой стороны, табличное представление информации давало полную карти- ну хода работы: все вычисления были детально видны на листах таблиц, и любой студент, не согласившийся с оценкой, мог видеть, как она формировалась и что помешало ему получить желаемый балл.Ход работыРабота позиционировалась как добровольная, но сама эта активность была для студентов необычным нововведением, количество сданных работ примерно соответствовало ожидаемому (рассчитывалось, что работы напишут 20% от по- тока, а задания на их проверку выполнят 80%). Работы прислали 23 автора (19%), в то же время специфику начисления баллов за рецензирование поняли не все, и количество присланных рецензий оказалось ниже ожидаемого (69%). Тем не ме- нее заложенный в механизм оценки расчет сработал - количество рецензий на одну работу было достаточным не только чтобы увидеть разные мнения рецен-зентов, но и позволяло применять статистические методы для определения наи- более адекватных оценок.Описанный ранее подход к оцениванию показал сильное «размытие» оценок (4). И сильные, и слабые работы получали незначительно различающиеся баллы, большинство оценок, отклоняющихся к верхней или нижней границе шкалы, нивелировалось оценками, попадающими в «безопасный» диапазон в середине шкалы.Чтобы выявить недобросовестных рецезнентов и показать студентам ориен- тиры на конкретных примерах, на сайте поддержки подробно разбирались все процессы оценивания и выборочного контроля (5).Второй год эксперимента проходил на потоке 180 человек, и для проведения курса на базе GoogleSpreadsheets были созданы скрипты, что позволило вынести обработку данных из таблиц и использовать их только для сбора информации из форм и наглядного представления результатов обработки. Для наглядности так- же выводились некоторые промежуточные значения, что позволяло сохранить для студентов возможность видеть принцип формирования их оценки.Во избежание конфликтов и непонимания принципа расчета оценок в первый год применялась простая формула: считалось среднее арифметическое по оцен- кам всех рецензентов данной работы по каждому критерию (их было четыре), после чего преподавателем вручную проверялись десять самых неоднозначных работ. Неоднозначность выявлялась по среднеквадратичному отклонению в оцен- ках рецензентов. Далее оценки преподавателя (экспертные оценки) сравнивались с оценками каждого из рецензентов в установленном доверительном интервале (плюс-минус 1 балл по каждому критерию), и, если расхождения превышали до- пустимый порог, это отмечалось в таблице. Если рецензия имела более 50% кри- териев (в данном случае три из четырех оценок выходили за доверительный диа- пазон) с отклоненной оценкой, то она аннулировалась, что исключало ее из рас- чета общей оценки за работу и снимало все баллы, начисляемые рецензенту за проверку данной работы.На второй год эксперимента было решено ввести непрерывную весовую шка- лу для рецензий, по которой считать и весовой коэффициент оценки рецензента в групповой оценке, и оценку самой рецензии.Для каждой компоненты оценки каждой работы определяется среднее ариф- метическое значение набора. Средние арифметические значения компонент ста- новятся «эталонными» оценками.Для каждой компоненты оценки каждой работы находится максимальное отклонение от эталонной соответствующей оценки Это отклонение становится длиной шкалы.Для каждой компоненты оценки каждого рецензента находится весовой коэффициент соответствия эталонной оценке, приведенный по шкале (от 0 до 1).Итоговая оценка работы рассчитывается как сумма всех компонент оценки по всем рецензентам для данной работы, умноженных на соответствующий ве- совой коэффициент.На рисунке показан пример расчета оценки для одного критерия из 6 баллов. Закрашенные клеточки - это поступившие оценки рецезентов: «1» не поставилникто, «2» - один, «3» - двое и т.д. Средний балл в таком случае будет равен 4,5, там проходит ось мнения большинства. Длина шкалы - от оси до самой удален- ной оценки (2), т.е., 2,5 балла. Вес оценок рецензентов будет падать пропорцио- нально удалению от оси. Так, каждые 0,5 балла при линейном падении веса будут отнимать 20%. Любопытно, что при таком подсчете никто не получит полный балл, так как оценка имеет целочисленные значения и даже самые близкие к оси оценки получат вес 80%, а соседние с ними - по 40%. Компенсировать этот не- достаток несложно, пропорционально «подтянув» после всех расчетов все значе- ния, чтобы максимальные достигли 100%, но в эксперименте этого не делалось.Рис. Расчет весовых коэффициентов рецензий с линейной весовой шкалой (показан расчет по одному критерию с максимумом оценки 6 баллов)Шкала в таком подходе - это максимальное расстояние от мнения большин- ства до самого отдаленного от него мнения отдельного рецензента, поэтому на рисунке шкала уходит в область несуществующих значений оценки. Поскольку разные критерии имели разное количество баллов, то и предельная длина шкалы варьировалась. На практике она зависела еще и от единодушия рецензентов - если все сошлись во мнениях и поставили одинаковую оценку, то единственный, поставивший иной балл, попадал на край шкалы и такая оценка обесценивалась. При таком подходе «удаленность» отдельно взятой оценки от «эталонной» (т.е., средней) определяла падение веса этой оценки в итоговой оценке, равно как и оценку за саму рецензию.На практике проводилась частичная проверка работ преподавателем и далее экспертные оценки принимались за «эталонную», что смещало точку отсчета шкалы. В такой ситуации случалось, что немногие поставившие далекую от мне- ния большинства оценку, оказывались у основания шкалы, а большинство теря- ло вес в соответствии с удаленностью от нового центра истины.Последующая работаПо итогам эксперимента были собраны все полученные от рецензентов оцен- ки, и этот массив данных стал основой для следующего исследования. Зная оцен- ки всех участников эксперимента, включая преподавателя, можно построить формулы, которые дадут высокую степень корреляции с экспертной (препода- вательской) оценкой. В данной статье мы не будем останавливаться на этом ис- следовании, кратко оно отражено в докладе [1].Результаты и выводыЧисленные итоги активности студентов в ходе экспериментов 2013 и 2014 гг. отражены в таблице. Здесь мы видим соотношение числа авторов и рецензентов как следствие мер по стимулированию рецензентов и демонстрации ответствен- ности авторов за некачественную работу, заложены в системе оценки работ в кур- се. Каждому студенту предлагалось проверить по три работы, поэтому число ре- цензий в среднем втрое больше числа рецензентов.Активность студентов в ходе экспериментовТаблицаЭссе-1 2013Эссе-2 2013Эссе-1 2014Эссе-2 2014Эссе, шт.2312812Рецензии (всего), шт.249270363453Рецензенты, человек8390131149Даже детализированная по критериям оценки работ схема оценки при пирин- говой проверке склонна к смещению к «безопасному диапазону». В такой ситу- ации рецензент имеет меньше шансов выпасть из доверительного интервала (в первом запуске эксперимента) или на попасть на край весовой шкалы (во вто- ром запуске). Решить это можно введением контрольных вопросов с однозначной оценкой, пересекающихся с оценкой по основным выбранным критериям. На- пример, если в шкале критериев приводятся ориентиры по количественным ха- рактеристикам (допустим, ссылкам на источники), то явное указание численных характеристик (допустим, 3 из 10 минимально необходимых) будет значить, что по соответствующему критерию («Обоснованность») высокий балл уже не может быть выставлен, поскольку в таблице критериев приводятся соответствующие численные ориентиры.По итогам проведенных экспериментов был получен массив оценок и набор анкет с отзывами студентов. Численные данные были обезличены для возмож- ности публичного использования и послужили основным материалом для по- следующих исследований. В частности, путем моделирования различных рабочих ситуаций и наборов рецензентов были получены формулы расчета оценки для первой (заменяющего ground-truth этап) и последующих пиринговых проверок, а также вычислены желательные и минимальные соотношения количества ре- цензентов к количеству авторов.ПРИМЕЧАНИЯCornell University, Center for Teaching Excellence. Peer assessment https://www.cte.cornell. edu/teaching-ideas/assessing-student-learning/peer-assessment.htmlКритерии оценки эссе - Компьютерная графика 2013. Сайт поддержки курса. http:// cg-2013.blogspot.ru/2013/09/blog-post_24.htmliPeer. Веб-приложение для проведения пиринговой оценки. https://sourceforge.net/projects/ ipeer/“Эссе-1. Оценки работ”. Компьютерная графика 2013. URL: http://cg-2013.blogspot. ru/2013/10/1.html“Как проверяются рецензии”. Компьютерная графика 2013. . URL: http://cg-2013.blogspot. ru/2013/10/blog-post_6.html

D A Korolev

National research university «Higher School of Economics»

Myasnitskaya str., 20, Moscow, Russia, 101000

A S Kolbe

National research university «Higher School of Economics»

Myasnitskaya str., 20, Moscow, Russia, 101000

A V Pavolotsky

National research university «Higher School of Economics»

Myasnitskaya str., 20, Moscow, Russia, 101000

Views

Abstract - 1705

PDF (Russian) - 338


Copyright (c) 2016 Королев Д.А., Кольбе А.С., Паволоцкий А.В.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.