MATHEMATICAL MODEL AND ITS REALIZATION WITH THE USE COMPUTER TECHNOLOGIES FOR THE ANALYSIS OF THE AUTHOR’S STYLE IN THE CONTEXT OF INTERCULTURAL DIALOGUE

Abstract


The article is devoted to an actual problem of natural-science and humanitarian cultures dialogue in the process of solving the most important cross-cutting issues associated with the study of writing styles variability under the influence of sociocultural conditions. There is offered a mathematical model of analyzing and comparing the text works styles. The essence of technology of Markov chains application to analyzing of the letter pairs in their natural sequences in the text in order to establish the stability of the author’s style. Temporary style analyzer, which provides a full cycle analysis text styles, was developed in the C # programming language. The program let the opportunity to predict changes in the author’s style for any time period; identify the author’s style works by introducing a time parameter that allows comparing the results of the static taxonomy (the texts are taken without regard to the the time parameter) and in dynamics (including the creation time).

В эпоху становления новой коммуникативной парадигмы современной пост- неклассической науки, ориентированной на междисциплинарный подход и меж- культурный диалог, требуется взвешенно и конструктивно подойти к решению задач, стоящих перед Россией и мировым сообществом в XXI веке - интеграции науки и культуры, технического и гуманитарного знания, совмещения современ- ных достижений технического прогресса с культурными ценностями. Сегодня мир должен опираться на синергию знаний, диалог разных культур. Это направ- ление исследования представляется нам наиболее актуальным.Проблемой диалога занимались еще древнегреческие философы - Сократ, Платон, Аристотель. В философии второй половины XX века резко возросло вни- мание к проблемам диалога как основы творческого мышления. Ключевым по- нятием работы В.С. Библера «От наукоучения - к логике культуры. Два фило- софских введения в двадцать первый век» является понятие диалога, которое автор связывает с мышлением, познанием. Попытку преодоления разрыва меж- ду гуманитарным и естественнонаучным знанием осуществил Чарльз Сноу. Уче- ный-физик и одновременно писатель впервые сформулировал проблему «двух* Работа выполнена при поддержке РНФ, проект № 16-18-10304.культур». Ряд российских ученых-педагогов в своих исследованиях, в той или иной степени, обращались к этой проблеме, внося в ее решение свой вклад. Так, например, в монографии [1] показана необходимость введения в учебный про- цесс по математике профессионально-прикладной и гуманитарной составляющих для гармонического развития личности и достижения мотивационного эффекта. На этой основе разработана концепция формирования математической культуры студентов и показаны пути ее реализации.В исследовании [2] предложено следующее видение диалога естественнона- учной и гуманитарной культур и пути ее осуществления. Диалог естественнона- учной и гуманитарной культур рассматривается как их сближение, взаимопро- никновение, взаимодействие и взаимообогащение. Очевидно, сочетание разных способов познания действительности - рационального естественнонаучного и иррационального гуманитарного, позволит решить проблему сохранения наци- ональной идентичности, самобытных традиций, языка, уклада и духовно-нрав- ственных ценностей русского народа, основу культурного многообразия в эпоху глобализации. В данной работе мы будем исходить из этого понимания диалога культур.Проблема анализа и сравнения стилей текстовых произведений давно уже но- сит междисциплинарный характер благодаря эффективному привлечению мате- матических методов. Математические методы позволяют получить не только ко- личественные, но и качественные выводы в филологических исследованиях. В литературоведческой практике проверка текстов на близость стилей необходи- ма для установления в спорных случаях подлинного авторства литературных про- изведений, особенно удаленных временем. В качестве примеров можно привести споры об авторстве некоторых произведений Шекспира, отдельных анонимных и псевдонимных публицистических статей, приписываемых Ф.М. Достоевскому, стихотворных текстов М.Ю. Лермонтова, прозаических произведений М.Е. Сал- тыкова-Щедрина, М.А. Шолохова и т.д.Теоретическим основанием для использования математических методов ис- следования письменной речи является статистическая модель порождения рече- вого высказывания. Благодаря прочной фиксации навыков письма и образования в коре головного мозга систем динамического стереотипа, труд, затрачиваемый в процессе создания текста, уменьшается, и появляется возможность писать ав- томатизировано. Этот фактор позволяет доподлинно определять авторство.Вопросами проверки текстов произведений на близость стилей с применени- ем формально-количественных методов в российской и зарубежной науке зани- мались А.А. Марков, М.А. Марусенко, Н.А. Морозов, В.П. Фоменко, Т.Г. Фомен- ко, В.Фукс, Д.В. Хмелев, Г. Хетсо, О.Г. Шевелев и др. [3-8]. С развитием инфор- мационных технологий анализ текстов приобрел огромный научный интерес. В 1978 году математик Г. Хетсо [7] предложил методику установления авторства, основанную на анализе текста с автоматизированным получением частотных словарей и статистических данных. К сожалению, в разработке была допущена ошибка, заключающаяся в использовании только одного параметра - средней длины предложения.Одним из последних исследований, основанных на автоматической обработ- ке текста, является диссертационная работа О.В. Шевелева [9], в которой был предложен новый подход для сравнения стилей текстов, базирующийся на дву- стороннем критерии Фишера и χ2-критерии Пирсона по частотным признакам, совокупности признаков и их распределению. Автором разработан программный комплекс «СтилеАнализатор», обеспечивающий полный цикл проведения ана- лиза стилей текстов.Несмотря на множество работ по проверке на близость стилей текстов, все же остается еще ряд мало исследованных областей. Например, ни в одной из суще- ствующих работ практически не поднимался вопрос о применении математиче- ских методов для прогноза изменения (сохранения) стиля автора, тексты кото- рого были созданы в разные периоды жизни писателя под воздействием объек- тивных социокультурных факторов.Сравнение конкретных текстов возможно на основе совокупности признаков, отражающих существенные свойства авторского стиля. К идентифицирующим признакам можно отнести: статистические характеристики (частотность слов, букв, их сочетаний, количественное использование определенных частей речи, синтаксических конструкций и т.д.). В науке установлено также, что вероятность появления сочетания пар символов различной природы в тексте отдельных ав- торов подчиняются некоторым устойчивым закономерностям. При этом основ- ная проблема формальных методов анализа авторских стилей состоит в выборе необходимых компонентов. Характеризующие параметры, по замечанию А.А. Маркова [3], должны удовлетворять определенным требованиям, таким, как статистическая устойчивость, массовость, различающая способность и, следова- тельно, могут быть формализованы только с помощью количественного анализа текстовых единиц с применением вероятностно-статистических методов.Нами предлагается технология применения марковских цепей для анализа пар букв в их естественных последовательностях в тексте с целью установления устой- чивости авторского стиля, сущность которой состоит в следующем. Пусть име- ются достаточно длинные фрагменты (не более 100 000 символов) прозаических произведений одного автора на русском языке, написанные в разные периоды жизни. Например, произведения Ивана Алексеевича Бунина «Деревня», изданное в 1910 г. в России, и роман «Жизнь Арсеньева» 1927 г., созданный после эмигра- ции во Францию. По произведениям раннего периода (выбирается одно кон- трольное произведение) вычисляется матрица переходных вероятностей встре- чаемости пар букв, которая служит оценкой матрицы вероятностей перехода из буквы в букву для экспериментального произведения позднего периода. Если вычисленная оценка вероятности высока, то стиль автора под воздействием внеш- них факторов не изменился, и наоборот. Такой метод оказывается достаточно точным для естественно-языковых текстов. Данное исследование проводим фор- мальными методами анализа текста с применением аппарата марковских цепей.Рассмотрим подробнее математическую модель для определения авторского стиля.Предположим, что вероятности перехода pij из одной буквы в другую явля- ются реализацией цепи Маркова для раннего произведения с переходной матри-цей . Данные вероятности вычисляются по формуле условных вероятностей:pijp(ij)= , где p(ij) - вероятность встречаемости пар букв i и j, а p(j) - вероятностьp( j)встречаемости буквы j в тексте.Полученную матрицу переходных вероятностей возводим в степень m, т.е.находим m, где m - это временной период с года написания раннего произве- дения до позднего. Построенная матрица m является прогнозируемой теорети-ческой матрицей переходных вероятностей.Далее строим эмпирическую матрицу переходных вероятностей 1 для позд-него произведения, согласно п. 1.Осуществляем статистическую проверку теоретической матрицы m с эм- пирической матрицей 1 по χ2-критерию Пирсона.Перейдем к сравнению построенных нами ранее матриц переходных вероят-ностей m (матрица переходов для раннего произведения, возведенная в степеньи 1 (матрица переходов для позднего произведения).Формулируем нулевую и альтернативные гипотезы: H0 - распределениепризнака по теоретической матрице совпадает с распределением признака поэмпирической матрице; H1 - распределение признака по теоретической матри- це значимо отличается от распределения признака по эмпирической матрице.Задаем уровень значимости α = 0,05.эмНаходим эмпирическое значение критерия по формуле: χ2∑(np - np′)2= ,np′где np - эмпирическая частота, np′ - теоретическая частота.Определяем критическое значение статистики Пирсона для α = 0,05 икрчисла степеней свободы, равного k = 332 - 1 = 1088. Имеем χ2(0,05; 1088) == 1012,425.Делаем статистические выводы. Если χ2< χ2(α; k), то нет оснований от-эм крэмвергнуть нулевую гипотезу H0. Если эмпирическое значение критерия χ2попалов критическую область χ2 χ2(α; k), то нулевую гипотезу Hотвергают.эм кр 0Чтобы получить более точные результаты, перейдем к программе реализациимодели на языке C# для сравнения авторского стиля путем разработки времен- ного стилевого анализатора. Предложенная программа позволяет прогнозировать изменение авторского стиля для любого временного периода; идентифицировать авторский стиль произведений путем введения параметра времени, что дает воз- можность сопоставить результаты как статической таксономии (тексты берутся без учета временного параметра), так и в динамике (с учетом времени создания).Общий вид программы «Временной стилевой анализатор» содержит два окна«Текст № 1» и «Текст № 2», которые служат для ввода сравниваемых текстов. Раз- берем на примере первого фрагмента работу стилевого анализатора.В поле «Текст № 1» помещаем фрагмент произведения «Деревня» размером 2765 символов и нажимаем кнопку «Анализировать № 1» (рис. 1). Следует уточ- нить, что для корректной работы программы вводимый в поле текст должен иметь размер не более 100 000 символов.Рис. 1. Шаг № 1 алгоритма программыПосле чего получаем матрицу переходных вероятностей, которую необхо- димо возвести в m = 17 степень. По умолчанию в поле для степени прописано значение 2, меняем его на 17 и нажимаем кнопку «Возвести № 1 в 17 степень». На экране отобразится окно с матрицей размером n × n, где n = 33, т. е. количество букв русского алфавита (рис. 2).Рис. 2. Шаг № 2 алгоритма программыДалее необходимо найти матрицу переходных вероятностей для отрывка из романа «Жизнь Арсеньева». Введем в поле «Текст № 2» часть текста размером2765 символов и нажмем кнопку «Анализировать № 2» (рис. 3). Следует отметить, что количество символов в произведениях должно быть одинаковым для коррект- ного сравнения, так как χ2-критерий Пирсона работает при равном объеме вы- борки.Рис. 3. Шаг № 3 алгоритма программыДля процедуры количественного сравнения стилей данных произведений достаточно нажать на кнопку «Вычислить χ2», после чего на экране отобразится результат вычислений (рис. 4). Сравнивая значение, вычисленное программой иэмпотображенное в окне с именем «Результат», χ2с ранее полученным критическимкрзначением χ2эмп, можно заключить, что χ2кр= 1569,801 значимо больше χ2(0,05;1088) = 1012,425. Следовательно, отклоняем нулевую гипотезу и делаем вывод о том, что стилистические особенности И.А. Бунина изменились под действием социокультурной среды.Сравнение «ранних» и «поздних» произведений позволяет утверждать, что под влиянием социокультурной среды русского зарубежья 20-х годов прошлого сто- летия произошли изменения стиля выдающегося писателя И.А. Бунина. Литера- туроведы теперь могут с уверенностью заявлять, что существуют объективные факторы, повлиявшие на субъективные воплощения авторских переживаний в слове, на стилевую ткань произведений. Если к этим наблюдениям прибавить количественные показатели, полученные в процессе статистического анализа, то выводы, касающиеся изменения авторского стиля, становятся более достовер- ными - математически подтвержденными [10; 11]. Таким образом, диалог есте- ственнонаучных и гуманитарных знаний обогащает наше представление о русских художниках слова, об особенностях творческого процесса как сложного духов- ного явления и в конкретном случае оказывается весьма продуктивным.Рис. 4. Шаг № 4 алгоритма программыВ заключение следует отметить, что разработанный стилевой анализатор может использоваться не только в научной деятельности лингвистов, филологов, исто- риков, культурологов, криминалистов для проверки текстов на стилистическую идентификацию, на установление авторства и стилистических особенностей язы- ка литературных произведений различных жанров, созданных в разные времен- ные периоды, но и в образовательной сфере как для гуманитарных, так и для естественнонаучных, инженерно-технических направлений подготовки и специ- альностей. Задачи, аналогичные приведенной в данной статье, целесообразно включать в интегративные материалы и курсы, на семинарские занятия и в про- ектную деятельность студентов по лингвистике, стилистике, лексикологии, ли- тературе, прикладной математике и информационным технологиям. Их решение способствует повышению учебной и профессиональной мотивации студентов и, следовательно, повышению качества образования.

S N Dvoryadkin

Yelets State Bunin University

Kommunarov str., 28, Yelets, Russia, 399770

S A Rozanova

Moscow Technological University

prospect Vernadskogo, 78, Moscow, Russia, 119454

Views

Abstract - 165

PDF (Russian) - 100


Copyright (c) 2016 Дворяткина С.Н., Розанова С.А.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.