МАТЕМАТИЧЕСКАЯ МОДЕЛЬ И ЕЕ РЕАЛИЗАЦИЯ С ПРИМЕНЕНИЕМ КОМПЬЮТЕРНЫХ ТЕХНОЛОГИЙДЛЯ АНАЛИЗА АВТОРСКОГО СТИЛЯ В КОНТЕКСТЕ ДИАЛОГА КУЛЬТУР

Обложка

Цитировать

Полный текст

Аннотация

Статья посвящена актуальной проблеме диалога гуманитарной и естественно-научной культур в процессе решения важнейших междисциплинарных вопросов, связанных с изучением изменчивости авторских стилей под влиянием социокультурных условий. Предложена математическая модель анализа и сравнения стилей текстовых произведений. Раскрыта сущность технологии применения марковских цепей для анализа пар букв в их естественных последовательностях в тексте с целью установления устойчивости авторского стиля. На языке программирования C# разработан временной стилевой анализатор, обеспечивающий полный цикл проведения анализа стилей текстов. Программа позволяет прогнозировать изменение авторского стиля для любого временного периода; идентифицировать авторский стиль произведений путем введения параметра времени, что дает возможность сопоставить результаты статической таксономии (тексты берутся без учета временного параметра) и в динамике (с учетом времени создания).

Полный текст

В эпоху становления новой коммуникативной парадигмы современной пост- неклассической науки, ориентированной на междисциплинарный подход и меж- культурный диалог, требуется взвешенно и конструктивно подойти к решению задач, стоящих перед Россией и мировым сообществом в XXI веке - интеграции науки и культуры, технического и гуманитарного знания, совмещения современ- ных достижений технического прогресса с культурными ценностями. Сегодня мир должен опираться на синергию знаний, диалог разных культур. Это направ- ление исследования представляется нам наиболее актуальным.Проблемой диалога занимались еще древнегреческие философы - Сократ, Платон, Аристотель. В философии второй половины XX века резко возросло вни- мание к проблемам диалога как основы творческого мышления. Ключевым по- нятием работы В.С. Библера «От наукоучения - к логике культуры. Два фило- софских введения в двадцать первый век» является понятие диалога, которое автор связывает с мышлением, познанием. Попытку преодоления разрыва меж- ду гуманитарным и естественнонаучным знанием осуществил Чарльз Сноу. Уче- ный-физик и одновременно писатель впервые сформулировал проблему «двух* Работа выполнена при поддержке РНФ, проект № 16-18-10304.культур». Ряд российских ученых-педагогов в своих исследованиях, в той или иной степени, обращались к этой проблеме, внося в ее решение свой вклад. Так, например, в монографии [1] показана необходимость введения в учебный про- цесс по математике профессионально-прикладной и гуманитарной составляющих для гармонического развития личности и достижения мотивационного эффекта. На этой основе разработана концепция формирования математической культуры студентов и показаны пути ее реализации.В исследовании [2] предложено следующее видение диалога естественнона- учной и гуманитарной культур и пути ее осуществления. Диалог естественнона- учной и гуманитарной культур рассматривается как их сближение, взаимопро- никновение, взаимодействие и взаимообогащение. Очевидно, сочетание разных способов познания действительности - рационального естественнонаучного и иррационального гуманитарного, позволит решить проблему сохранения наци- ональной идентичности, самобытных традиций, языка, уклада и духовно-нрав- ственных ценностей русского народа, основу культурного многообразия в эпоху глобализации. В данной работе мы будем исходить из этого понимания диалога культур.Проблема анализа и сравнения стилей текстовых произведений давно уже но- сит междисциплинарный характер благодаря эффективному привлечению мате- матических методов. Математические методы позволяют получить не только ко- личественные, но и качественные выводы в филологических исследованиях. В литературоведческой практике проверка текстов на близость стилей необходи- ма для установления в спорных случаях подлинного авторства литературных про- изведений, особенно удаленных временем. В качестве примеров можно привести споры об авторстве некоторых произведений Шекспира, отдельных анонимных и псевдонимных публицистических статей, приписываемых Ф.М. Достоевскому, стихотворных текстов М.Ю. Лермонтова, прозаических произведений М.Е. Сал- тыкова-Щедрина, М.А. Шолохова и т.д.Теоретическим основанием для использования математических методов ис- следования письменной речи является статистическая модель порождения рече- вого высказывания. Благодаря прочной фиксации навыков письма и образования в коре головного мозга систем динамического стереотипа, труд, затрачиваемый в процессе создания текста, уменьшается, и появляется возможность писать ав- томатизировано. Этот фактор позволяет доподлинно определять авторство.Вопросами проверки текстов произведений на близость стилей с применени- ем формально-количественных методов в российской и зарубежной науке зани- мались А.А. Марков, М.А. Марусенко, Н.А. Морозов, В.П. Фоменко, Т.Г. Фомен- ко, В.Фукс, Д.В. Хмелев, Г. Хетсо, О.Г. Шевелев и др. [3-8]. С развитием инфор- мационных технологий анализ текстов приобрел огромный научный интерес. В 1978 году математик Г. Хетсо [7] предложил методику установления авторства, основанную на анализе текста с автоматизированным получением частотных словарей и статистических данных. К сожалению, в разработке была допущена ошибка, заключающаяся в использовании только одного параметра - средней длины предложения.Одним из последних исследований, основанных на автоматической обработ- ке текста, является диссертационная работа О.В. Шевелева [9], в которой был предложен новый подход для сравнения стилей текстов, базирующийся на дву- стороннем критерии Фишера и χ2-критерии Пирсона по частотным признакам, совокупности признаков и их распределению. Автором разработан программный комплекс «СтилеАнализатор», обеспечивающий полный цикл проведения ана- лиза стилей текстов.Несмотря на множество работ по проверке на близость стилей текстов, все же остается еще ряд мало исследованных областей. Например, ни в одной из суще- ствующих работ практически не поднимался вопрос о применении математиче- ских методов для прогноза изменения (сохранения) стиля автора, тексты кото- рого были созданы в разные периоды жизни писателя под воздействием объек- тивных социокультурных факторов.Сравнение конкретных текстов возможно на основе совокупности признаков, отражающих существенные свойства авторского стиля. К идентифицирующим признакам можно отнести: статистические характеристики (частотность слов, букв, их сочетаний, количественное использование определенных частей речи, синтаксических конструкций и т.д.). В науке установлено также, что вероятность появления сочетания пар символов различной природы в тексте отдельных ав- торов подчиняются некоторым устойчивым закономерностям. При этом основ- ная проблема формальных методов анализа авторских стилей состоит в выборе необходимых компонентов. Характеризующие параметры, по замечанию А.А. Маркова [3], должны удовлетворять определенным требованиям, таким, как статистическая устойчивость, массовость, различающая способность и, следова- тельно, могут быть формализованы только с помощью количественного анализа текстовых единиц с применением вероятностно-статистических методов.Нами предлагается технология применения марковских цепей для анализа пар букв в их естественных последовательностях в тексте с целью установления устой- чивости авторского стиля, сущность которой состоит в следующем. Пусть име- ются достаточно длинные фрагменты (не более 100 000 символов) прозаических произведений одного автора на русском языке, написанные в разные периоды жизни. Например, произведения Ивана Алексеевича Бунина «Деревня», изданное в 1910 г. в России, и роман «Жизнь Арсеньева» 1927 г., созданный после эмигра- ции во Францию. По произведениям раннего периода (выбирается одно кон- трольное произведение) вычисляется матрица переходных вероятностей встре- чаемости пар букв, которая служит оценкой матрицы вероятностей перехода из буквы в букву для экспериментального произведения позднего периода. Если вычисленная оценка вероятности высока, то стиль автора под воздействием внеш- них факторов не изменился, и наоборот. Такой метод оказывается достаточно точным для естественно-языковых текстов. Данное исследование проводим фор- мальными методами анализа текста с применением аппарата марковских цепей.Рассмотрим подробнее математическую модель для определения авторского стиля.Предположим, что вероятности перехода pij из одной буквы в другую явля- ются реализацией цепи Маркова для раннего произведения с переходной матри-цей . Данные вероятности вычисляются по формуле условных вероятностей:pijp(ij)= , где p(ij) - вероятность встречаемости пар букв i и j, а p(j) - вероятностьp( j)встречаемости буквы j в тексте.Полученную матрицу переходных вероятностей возводим в степень m, т.е.находим m, где m - это временной период с года написания раннего произве- дения до позднего. Построенная матрица m является прогнозируемой теорети-ческой матрицей переходных вероятностей.Далее строим эмпирическую матрицу переходных вероятностей 1 для позд-него произведения, согласно п. 1.Осуществляем статистическую проверку теоретической матрицы m с эм- пирической матрицей 1 по χ2-критерию Пирсона.Перейдем к сравнению построенных нами ранее матриц переходных вероят-ностей m (матрица переходов для раннего произведения, возведенная в степеньи 1 (матрица переходов для позднего произведения).Формулируем нулевую и альтернативные гипотезы: H0 - распределениепризнака по теоретической матрице совпадает с распределением признака поэмпирической матрице; H1 - распределение признака по теоретической матри- це значимо отличается от распределения признака по эмпирической матрице.Задаем уровень значимости α = 0,05.эмНаходим эмпирическое значение критерия по формуле: χ2∑(np - np′)2= ,np′где np - эмпирическая частота, np′ - теоретическая частота.Определяем критическое значение статистики Пирсона для α = 0,05 икрчисла степеней свободы, равного k = 332 - 1 = 1088. Имеем χ2(0,05; 1088) == 1012,425.Делаем статистические выводы. Если χ2< χ2(α; k), то нет оснований от-эм крэмвергнуть нулевую гипотезу H0. Если эмпирическое значение критерия χ2попалов критическую область χ2 χ2(α; k), то нулевую гипотезу Hотвергают.эм кр 0Чтобы получить более точные результаты, перейдем к программе реализациимодели на языке C# для сравнения авторского стиля путем разработки времен- ного стилевого анализатора. Предложенная программа позволяет прогнозировать изменение авторского стиля для любого временного периода; идентифицировать авторский стиль произведений путем введения параметра времени, что дает воз- можность сопоставить результаты как статической таксономии (тексты берутся без учета временного параметра), так и в динамике (с учетом времени создания).Общий вид программы «Временной стилевой анализатор» содержит два окна«Текст № 1» и «Текст № 2», которые служат для ввода сравниваемых текстов. Раз- берем на примере первого фрагмента работу стилевого анализатора.В поле «Текст № 1» помещаем фрагмент произведения «Деревня» размером 2765 символов и нажимаем кнопку «Анализировать № 1» (рис. 1). Следует уточ- нить, что для корректной работы программы вводимый в поле текст должен иметь размер не более 100 000 символов.Рис. 1. Шаг № 1 алгоритма программыПосле чего получаем матрицу переходных вероятностей, которую необхо- димо возвести в m = 17 степень. По умолчанию в поле для степени прописано значение 2, меняем его на 17 и нажимаем кнопку «Возвести № 1 в 17 степень». На экране отобразится окно с матрицей размером n × n, где n = 33, т. е. количество букв русского алфавита (рис. 2).Рис. 2. Шаг № 2 алгоритма программыДалее необходимо найти матрицу переходных вероятностей для отрывка из романа «Жизнь Арсеньева». Введем в поле «Текст № 2» часть текста размером2765 символов и нажмем кнопку «Анализировать № 2» (рис. 3). Следует отметить, что количество символов в произведениях должно быть одинаковым для коррект- ного сравнения, так как χ2-критерий Пирсона работает при равном объеме вы- борки.Рис. 3. Шаг № 3 алгоритма программыДля процедуры количественного сравнения стилей данных произведений достаточно нажать на кнопку «Вычислить χ2», после чего на экране отобразится результат вычислений (рис. 4). Сравнивая значение, вычисленное программой иэмпотображенное в окне с именем «Результат», χ2с ранее полученным критическимкрзначением χ2эмп, можно заключить, что χ2кр= 1569,801 значимо больше χ2(0,05;1088) = 1012,425. Следовательно, отклоняем нулевую гипотезу и делаем вывод о том, что стилистические особенности И.А. Бунина изменились под действием социокультурной среды.Сравнение «ранних» и «поздних» произведений позволяет утверждать, что под влиянием социокультурной среды русского зарубежья 20-х годов прошлого сто- летия произошли изменения стиля выдающегося писателя И.А. Бунина. Литера- туроведы теперь могут с уверенностью заявлять, что существуют объективные факторы, повлиявшие на субъективные воплощения авторских переживаний в слове, на стилевую ткань произведений. Если к этим наблюдениям прибавить количественные показатели, полученные в процессе статистического анализа, то выводы, касающиеся изменения авторского стиля, становятся более достовер- ными - математически подтвержденными [10; 11]. Таким образом, диалог есте- ственнонаучных и гуманитарных знаний обогащает наше представление о русских художниках слова, об особенностях творческого процесса как сложного духов- ного явления и в конкретном случае оказывается весьма продуктивным.Рис. 4. Шаг № 4 алгоритма программыВ заключение следует отметить, что разработанный стилевой анализатор может использоваться не только в научной деятельности лингвистов, филологов, исто- риков, культурологов, криминалистов для проверки текстов на стилистическую идентификацию, на установление авторства и стилистических особенностей язы- ка литературных произведений различных жанров, созданных в разные времен- ные периоды, но и в образовательной сфере как для гуманитарных, так и для естественнонаучных, инженерно-технических направлений подготовки и специ- альностей. Задачи, аналогичные приведенной в данной статье, целесообразно включать в интегративные материалы и курсы, на семинарские занятия и в про- ектную деятельность студентов по лингвистике, стилистике, лексикологии, ли- тературе, прикладной математике и информационным технологиям. Их решение способствует повышению учебной и профессиональной мотивации студентов и, следовательно, повышению качества образования.
×

Об авторах

С Н Дворяткина

Елецкий государственный университет им. И.А. Бунина

ул. Коммунаров, 28, Елец, Россия, 399770

С А Розанова

Московский технологический университет (МИРЭА)

проспект Вернадского, 78, Москва, Россия, 119454

Список литературы

  1. Розанова С.А. Математическая культура студентов технических университетов: монография.М.: ФИЗМАТЛИТ, 2003. 176 с.
  2. Дворяткина С.Н. Развитие вероятностного стиля мышления в процессе обучения математике: теория и практика: монография. М.: ИНФРА-М, 2013. 272 с.
  3. Марков А.А. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь // Известия Имп. Акад. Наук. Серия VI, Т. X, N3, 1913.
  4. Морозов Н.А. Лингвистические спектры. Средство для отличения плагиатов от истинных произведений того или иного известного автора: Стилеметрический этюд // Известия отд. русского языка и словесности Имп. Акад. Наук. 1915, Т. XX, Кн. 4.
  5. Марков А.А. Об одном применении статистического метода // Известия отд. русского языка и словесности Имп. Акад. Наук. 1916, Серия VI, Т.X.
  6. Фукс В. По всем правилам искусства: Точные методы в исследованиях литературы, музыки и изобразительного искусства // Искусство и ЭВМ / под ред. Р.Х. Зарипова. М.: Мир, 1975. С. 134-356.
  7. Хетсо Г. Проблема авторства в романе «Тихий дон» // Scando-slavica. 1978, Т. 24.
  8. Марусенко Н.А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л.: Изд-во ЛГУ, 1990.
  9. Шевелев О.В. Разработка и исследование алгоритмов сравнение стилей текстовых произведений: дисс. … канд. техн. наук. Томск, 2006. 176 с.
  10. Дворяткина С.Н., Дякина А.Н., Мельникова Ю.В. Аппарат цепей Маркова в анализе изменений авторского стиля под воздействием социокультурной среды: к постановке проблемы // Вестник Елецкого государственного университета им. И.А. Бунина. Вып. 34: Серия «Педагогика» (История и теория математического образования). Елец: ЕГУ им. И.А. Бунина, 2014. С. 159-164.
  11. Dvoryatkina S.N., Dyakina А.А. On Variability of Authors’ Style under the Influence of the Socio- Cultural Environment in the Context of Dialogue of Natural Scientific and Humanitarian Cultures // Mediterranean Journal of Social Sciences MCSER Publishing, Rome-Italy. Vol. 6, No 5 S4 October 2015. Special Issue. P. 167-171.

© Дворяткина С.Н., Розанова С.А., 2016

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах