Karachay-Balkarian Novel: Distant Reading Practice

Cover Page

Cite item

Full Text

Abstract

The article for the first time tests some methods of distant reading on the material of KarachayBalkarian novels. The object of the study is the texts of 55 fiction works in the Karachay-Balkar language (mainly novels). Based on the analyzed texts, as well as some related meta-information, conclusions are drawn about the dynamics of publication activity in relation to Karachay-Balkarian novels - in particular, an unprecedented decrease in such activity since 2011 is indicated (only two published novels were found during this period). For the first time, the method Delta for calculation of intertextual distances (together with tree-like clusterization) was applied to the samples of Karachay-Balkarian literature, once again confirming its high efficiency. In addition to the unmistakable attribution of the analyzed texts, the generated tree structure is characterized by the presence of two branches (Karachay and Balkarian), as well as two sub-branches within the Balkarian branch. At the same time, intraBalkarian dialects are not revealed on the tree. The chronological principle has been found: the work located the furthest on the tree from the other works of the same author is always published either earlier than all the others, or later than all the others.

Full Text

Введение Карачаево-балкарская литература прошла сложный путь развития, вбирая в себя как фольклорное наследие родного народа, так и художественный опыт развитых литератур [1]. Возникшая после Октябрьской революции [2; 3], она на протяжении ХХ в. демонстрирует активное освоение самых разнообразных жанров - в полном соответствии с теорией ускоренного развития Георгия Гачева [4]. Формирование жанра романа в карачаево-балкарской прозе явилось важным этапом в развитии художественного мышления. Кайсын Кулиев писал: «Если роман в какой-нибудь из молодых литератур уже занял свое место и утвердился в ней, то обычно говорят о зрелости данной словесности» [5. С. 2]. Следуя этой идее, стоит признать зрелость карачаево-балкарской литературы, так как к 2022 г. она насчитывает порядка 50 романов, многие из которых вошли в сокровищницу кавказской, тюркской и мировой художественной мысли. Параллельно с романным творчеством развивается и литературоведение: исследованию карачаево-балкарского романного жанра посвящали работы Ф. Урусбиева, А. Теппеев, З. Толгуров, А. Мусукаева, Ф. Гулиева (Занукоева), С. Акачиева, А. Сарбашева и др. Если в 1974 г. Алим Теппеев писал, что «в целом литературная критика и литературоведение еще сильно отстают от уровня балкарской литературы» [2. С. 7], то по состоянию на 2022 г. можно говорить об устранении такого отставания. При этом все еще остаются отдельные направления, практически не затронутые карачаево-балкарским литературоведением. К таковым, в частности, относится исследовательская стратегия distant reading [6], название которой может быть переведено на русский язык как «дистанцированное, отвлеченное чтение» или «дальнее чтение». Такое «дальнее чтение» в противоположность «медленному чтению» предполагает, что «литературовед не сносится с текстом напрямую, а пытается уловить значимые для литературы тенденции опосредованно, через модели, в основу которых положена извлеченная из исходного текста и систематизированная информация» [7. С. 9]. Как отмечает лингвист Б. Орехов, «исследователь способен прочесть за отведенное ему время конечное число художественных произведений, а посвятить полному объему сложно организованных текстов достойное количество времени и сил для выявления и осмысления всех нюансов - задача нереализуемая. Меж тем литературная традиция в целом как система, как комплексный объект, - предмет, взывающий к изучению в не меньшей степени, чем отдельный текст. И отвлеченное чтение дает возможность обозреть традицию (или хотя бы масштабный набор текстов) целиком» [7. С. 9]. Концепция дальнего чтения охватывает большое количество инструментов, направленных на решение самых разнообразных задач. В настоящей работе мы ограничиваемся решением двух задач: - дать количественную оценку карачаево-балкарских романов на основе до-ступных текстов, с учетом диалектной принадлежности и времени публикации; - провести компьютерный анализ индивидуальных авторских стилей с по-следующей графической кластеризацией произведений. Методы и объект исследования Для решения поставленных задач применяются следующие инструменты: - программа Microsoft Excel - для составления сводной таблицы анализиру-емых произведений и визуализации столбиковой диаграммы; - программа Stylo - для древовидной кластеризации анализируемых произ-ведений на основе вычисления межтекстовых расстояний. Объектом исследования послужила коллекция из 55 произведений на карачаево-балкарском языке (табл. 1). Основополагающие принципы формирования такой коллекции: - основа коллекции - романы (в количестве 50 штук), однако для тестирова-ния ряда гипотез добавлено пять повестей (отмечены звездочками в табл. 1); - основной источник текстов - электронная библиотека Фонда «Эльбрусоид» (http://www.elbrusoid.org/library/); - подавляющее большинство известных нам романов могут быть обнаружены на этом ресурсе, однако отдельные карачаево-балкарские романы по состоянию на 10.04.2022 отсутствуют; - все выгружаемые с электронной библиотеки тексты сохранялись в формате .txt и подвергались минимальным корректорским правкам: удалению вспомогательных элементов текста (как правило, русскоязычных) и корректировке ряда ошибок при сканировании. Таблица 1/Table 1 Объект исследования/Study object Автор/ Author Название произведения/ Title of literary text Год публикации/ Year of publication Примерное количество слов/ Words’ quantity Акаев Тахир Хакийкат уахтысы 2005 86 000 Акаев Тахир Жарыкъ толкъун 2012 123 000 Аппаев Хасан Къара кюбюр 1958 86 000 Байчоров Магомет Уллу Къарачайда 1967 84 000 Байрамукова Халимат Къарчаны юйдегиси 1961 53 000 Байрамукова Халимат Джылла бла таула 1964 102 000 Байрамукова Халимат Чолпан 1970 104 000 Байрамукова Халимат Мёлек 1981 73 000 Байрамукова Халимат Онтёрт джыл 1990 74 000 Гадиев Ибрагим Санга айтама* 1959 45 000 Гадиев Ибрагим Нарт уя 1982 122 000 Гуртуев Берт Жангы талисман 1970 120 000 Гуртуев Берт Адилгерий 1988 31 000 Гуртуев Салих Ёксюзле жулдузну сарыны 2010 68 000 Гуртуев Эльдар Малкъарбеклары* 1977 93 000 Гуртуев Эльдар Шамсудин къаласы 1982 79 000 Залиханов Жанакаит Тау къушла 1962 110 000 Залиханов Жанакаит Жаннган жюрекле 1970 121 000 Залиханов Жанакаит Бахсан жулдузу 1984 90 000 Залиханов Жанакаит Эки тюбешиу 1985 125 000 Кагиева Назифа Джулдузла джукъланмайдыла* 1968 84 000 Кагиева Назифа Тейри джарыкъ 1985 118 000 Кагиева Назифа Къарча 1994 122 000 Кациев Хабу Тамата 1971 65 000 Коркмазов Кёккёз Горда бычакъ (2) 1974 74 000 Коркмазов Кёккёз Хорланнган аджал 1979 39 000 Коркмазов Кёккёз Горда бычакъ (3) 1984 57 000 Кубанов Ахмат Кюн таякъла* 1971 53 000 Кубанов Ахмат Сыналгъан джылла* 1975 58 000 Кубанов Дахир Таулада таууш 1963 91 000 Кубанов Дахир Эки заман 1968 49 000 Кучинаев Магомет Айыу бла кертме ашаргъа базыннган 1987 117 000 Кучинаев Магомет Уллу Малкъар 1991 106 000 Кучинаев Магомет Кюн балалары 1997 195 000 Лайпанов Билал Къазауат 2015 128 000 Теппеев Алим Ташуюл 1976 118 000 Теппеев Алим Ас-Тах 2002 78 000 Окончание табл. 1/End of Table 1 Автор/ Author Название произведения/ Title of literary text Год публикации/ Year of publication Примерное количество слов/ Words’ quantity Теппеев Алим Баязир 2002 77 000 Теппеев Алим Алтын Хардар 2006 132 000 Токумаев Жагафар Дерти къама 1976 73 000 Токумаев Жагафар Къурч бюгюлмейди 1979 105 000 Токумаев Жагафар Жукъусуз тала 1983 77 000 Токумаев Жагафар Мени ёмюрюм 2004 110 000 Толгуров Зейтун Жетегейле 1982 118 000 Толгуров Зейтун Кёк геле 1993 118 000 Толгуров Зейтун Акъ жыйрыкъ 2005 94 000 Урусова Аминат Айсанат 1987 73 000 Хубиев Осман Джукъусуз кечеле 1969 53 000 Хубиев Осман Аманат 1990 113 000 Шаваев Хасан Огъары чат 2003 64 000 Шаваев Хасан Анала ауазы 2005 59 000 Шаваева Миналдан Мурат 1964 55 000 Шаваева Миналдан Тейри жарыгъы 1988 96 000 Этезов Омар Аслан 1978 98 000 Этезов Омар Урушну отунда 1989 60 000 * Повесть. Динамика публикационной активности карачаево-балкарских романов Подготовленный для анализа датасет был дополнен мета-информацией: - сведениями о годе публикации (что не обязательно совпадает с годом на-писания); - округленным до тысяч количеством слов; - маркером происхождения автора («М» - Малкарское ущелье, «Б» - Бак-санское, «Ч» - Чегемское, «Х» - Холамо-Безенгийское, «К» - Карачай). Такой дополненный датасет был проанализирован на предмет динамики публикационной активности за максимально возможный период времени (рисунок 1). На рисунке 1 представлена динамика публикационной активности в отношении карачаево-балкарских романов. Для целей анализа годы объединены в десятилетия (с небольшим расширением временного интервала для крайнего левого столбика). Период с 1958 по 1970 г. характеризуется подъемом национального самосознания на фоне реабилитации народа и возвращения в родные края. Этот период достаточно ярко представлен целой плеядой романистов - в первую очередь карачаевских. На эти годы «приходится пик культурообразующего процесса, связанного с возрождением, вторичным ускоренным развитием, окончательным формированием и утверждением базисной жанровой системы в национальной прозе» [8. С. 3]. Следующее десятилетие (1971-1980) демонстрирует некоторое снижение публикационной активности на фоне продолжающегося с 1964 г. «периода застоя» в СССР. При этом именно в этот период набирают обороты балкарские романисты. В эти годы отмечается «ослабление идеологического давления партии, что позволило [молодым писателям] обращаться к ранее запрещенным темам, дало большую свободу действий» [9. С. 114]. Период с 1981 по 1990 год - пиковый как по общему карачаево-балкарскому «романному объему», так и по количеству активных романистов. Однако если первую половину этого десятилетия связывают с продолжением периода расцвета балкарской литературы, то вторую половину - уже с застойными тенденциями [9. С. 126]. На фоне распада СССР и последовавшего кризиса 1990-х в этом десятилетии произошло почти трехкратное снижение активности романистов. Всего четыре известных нам романа, изданных в этот период, приведены на рис. 1. В отношении этого периода Ф.Х. Гулиева (Занукоева) в своей монографии пишет «о некоторой растерянности писателей, временной утрате духовных ориентиров, что было обусловлено происходившими в жизни общества глобальными процессами эпохального значения - распадом СССР, последовавшим за этим политическим и экономическим кризисом и т.д. В условиях, когда прежние идеалы и представления рухнули, а новые еще не появились, когда тоталитаризм сменился полной анархией, свободой слова и действия, писатели и поэты, так же как и все остальные жители страны, пребывали в смятении. Тем не менее события прошлого научили их преодолевать препятствия, продолжать творить в любых условиях» [9. С. 126]. Период с 2001 по 2010 г. демонстрирует положительный тренд, приближаясь в итоге к аналогичным показателям «застойного периода» 1971-1980 гг. Наиболее критичным положение выглядит в рамках последнего рассматриваемого периода - с 2011 по 2020 г. В это десятилетие опубликованы всего два романа (см. рис. 1). Такое беспрецедентно низкое значение требует выявления причин во избежание дальнейшей стагнации. Кластерный анализ карачаево-балкарских романов на основе индивидуальных авторских стилей Среди многих методов вычисления межтекстовых расстояний и количественной атрибуции текстов наибольшее признание получил метод Delta [10]. Согласно парадигме, лежащей в основе этого метода, какие-то яркие, содержательные элементы текста практически бесполезны при определении авторства, так как сильно зависят от жанра и сюжета произведения, а также достаточно легко могут быть изменены при наличии у автора соответствующего намерения. С другой стороны, употребление самых популярных элементов текста (слов с высокой частотностью, в том числе служебных), как правило, почти не чувствительно к авторскому замыслу. Показательный пример такого принципа - подход к определению авторства картин, возникший во второй половине XIX в. Автор подхода - Джованни Морелли - утверждал, что нужно обращать внимание на детали, например, на то, как нарисованы уши или пальцы (https://postnauka.ru/faq/99046). Скорее всего, художник не будет задумываться, как именно ему нарисовать ухо, потому что он привык его рисовать определенным образом. Похожий принцип реализован и в почерковедении: для идентификации автора рукописного текста используется не содержание текста, а различные признаки почерка, как правило, не осознаваемые автором и потому достаточно устойчивые. Суть метода Delta состоит в том, что для каждого анализируемого текста рассчитываются частотности определенного количества (например, 100 или 200) самых частотных слов и полученные профили частотностей попарно сравниваются между всеми анализируемыми текстами. Различия в двух профилях частотностей могут быть выражены одним числом, и это число, рассчитанное для пары текстов одного автора, как правило, меньше, чем число, рассчитанное для пары текстов разных авторов. Метод Delta подтвердил свою эффективность на огромном количестве текстов на разных языках. Этот метод находит применение, в частности, в случаях необходимости атрибуции произведений сомнительного авторства. Так, проверке подвергались «Тихий Дон» Шолохова, произведения Шекспира, книга Джоан Роулинг, которую она выпустила под псевдонимом, и многие другие тексты. Использование метода Delta зачастую сопряжено с дальнейшим применением алгоритмов кластеризации, позволяющих визуализировать результат в виде дендрограммы. Подробнее о методе Delta можно прочитать, например, в статье Н.К. Мамаева и др. [11] и в заметке лингвиста Б. Орехова (https://postnauka.ru/ faq/99046). В карачаево-балкарской литературной традиции неизвестны примеры спорного или сомнительного авторства крупных произведений, которые требовали бы применения методов количественной атрибуции текстов. Однако определение индивидуальных авторских стилей карачаево-балкарских романистов вызывает большой интерес как с точки зрения апробации этого метода на карачаево-балкарском материале (что производится впервые), так и с точки зрения кластеризации карачаево-балкарских авторов на основе стилевых особенностей. Отметим, что жанр романа - наиболее подходящий для такого рода экспериментов, так как упомянутый метод основан на статистических закономерностях, и, следовательно, нуждается в текстах возможно большего объема. Инструментом для такого исследования служит программа Stylo [12], написанная на языке программирования R. Графический интерфейс программы позволяет оставить базовые настройки анализа либо скорректировать какие-то из них при необходимости. Ключевыми параметрами для расчета являются: - язык (для нашего случая выбран Other; также отмечено поле Native Encoding; - регистр слов (выбран вариант с сохранением регистра); - процент отбраковки слов (выбрано нулевое значение, т.е. анализируются все слова, независимо от доли документов, в которых эти слова встречаются); - Delta Distance (вид расчетной математической формулы; выбран Cosine Delta, как демонстрирующий в среднем наибольшую эффективность по оценкам разработчика). Далее в программу загружаются анализируемые тексты (см. табл. 1). Результат древовидной кластеризации текстов в очередной раз подтвердил высочайшую эффективность метода Delta (см. рис. 2). Обсуждение результатов Визуальный анализ сгенерированного дерева позволяет сделать следующие выводы. Все анализируемые тексты абсолютно точно сгруппированы по используемому диалекту языка (в верхней ветви - произведения балкарских авторов, в нижней ветви - карачаевских). За редким исключением все произведения одного автора располагаются максимально близко друг к другу. Исключением является роман «Тау къушла» Ж. Залиханова, немного отстоящий от других трех романов этого автора. Возможное объяснение - эволюция авторского стиля: этот роман издан в 1962 г. - задолго до остальных романов. Такой же хронологический принцип проявляется во всех других случаях, где из нескольких романов один выделяется из общей группы. Так, у Ж. Токумаева выделяется самый поздний роман; у М. Кучинаева, З. Толгурова, А. Теппеева, Н. Кагиевой - их самые ранние романы; у Х. Байрамуковой - ее два самых ранних романа. В балкарской ветви четко выделяются две стилевые подветви: условно «Залиханово-Токумаевская» и «Теппеево-Толгуровская». Конкретные стилевые особенности, объединяющие авторов в рамках одной подветви и отличающие авторов из разных подветвей, на данный момент нам неизвестны и требуют комментариев со стороны специалистов в творчестве этих авторов. Один из возможных критериев такого разделения на две подветви - бо´льшая приверженность представителей Теппеево-Толгуровской подветви к русской и советской литературной традиции. Небольшое варьирование исходных настроек расчета может приводить к незначительным изменениям в конфигурации ветвей (например, четыре романа Ж. Залиханова максимально приближаются друг к другу). При этом как разделение на карачаевскую и балкарскую ветви, так и дальнейшее разделение балкарской ветви на две подветви достаточно устойчивы к изменению исходных настроек в разумных пределах. В то время как литературные карачаевский и балкарский диалекты безошибочно разделились на дереве, внутрибалкарские диалекты не нашли никакого отражения в структуре дерева. Возможное объяснение этого факта состоит в том, что внутрибалкарские диалекты преимущественно отличаются на фонетическом уровне, а при написании текстов на литературном балкарском языке какие бы то ни было различия ничтожны. Дополнительное объяснение может заключаться в «горниле войны» и депортации, что повлекло за собой как нарушение вербальной связи будущих балкарских писателей со своими родителями, так и усреднение диалектных различий на фоне совместного проживания на территории Средней Азии представителей разных ущелий. Заключение Качество подготовленной в рамках работы базы текстов, а также факт успешного применения ряда компьютерных методов к обработке этих текстов позволяют с оптимизмом оценивать дальнейшие перспективы в данном направлении. Так, в качестве первоочередной задачи мы рассматриваем совершенствование текущей базы карачаево-балкарских художественных произведений - как в части максимально возможного устранения имеющихся опечаток (возникающих в том числе по причине несовершенного сканирования), так и в части уточнения методологии отбора и обработки текстов разных жанров. К таким методологическим вопросам относятся следующие: 1) максимально полный учет опубликованных карачаево-балкарских художественных произведений (с привлечением дополнительных информационных ресурсов - электронных и печатных); 2) формализация критериев жанровой классификации произведений; 3) разработка компьютерного алгоритма, трансформирующего тексты с карачаевского диалекта на балкарский и обратно. Цель - исключение диалектного фактора при анализе стилей для обеспечения непосредственной сравнимости стилей карачаевских и балкарских авторов. Такой алгоритм должен включать как минимум замену карачаевского «Дж» на балкарское «Ж» и переключение наиболее популярных диалектизмов. Решение этих методологических вопросов будет способствовать распространению описанного метода стилевой кластеризации на другие карачаево-балкарские литературные жанры: малую прозу, поэзию, драматургию, фольклор. В дальнейшем возможно полноценное корпусное исследование карачаевобалкарской художественной литературы, что с технической точки зрения потребует разработки нормализатора словоформ (их приведения к словарным формам) и алгоритма идентификации и исключения стоп-слов (самых частотных слов, как правило, не несущих смысловой нагрузки). Одним из результатов такого исследования может быть список редких слов, использованных авторами в своих произведениях, но отсутствующих в современных словарях карачаево-балкарского языка. Другой возможный результат - программа-конкордансер, позволяющая анализировать частотности отдельных слов и словосочетаний в текстах разных произведений. В заключение отметим, что продемонстрированный нами пример успешного применения стилеметрического алгоритма Delta на материале карачаево-балкарских романов позволяет надеяться на появление аналогичных работ на материалах художественных произведений прочих малых народов России, в том числе северокавказских.
×

About the authors

Ali Burkhanovich Berberov

Russian Energy Agency

Author for correspondence.
Email: ali-berberov@mail.ru
ORCID iD: 0000-0001-7847-3770

PhD in Technical Sciences, project director

Building 1, Prospect Mira 105, Moscow, 129085, Russian Federation

References

  1. Sarbasheva, A.M. 2001. Formirovanie istorizma myshleniya i balkarskiy roman. Nalchik: KBNC RAN publ. Print. (In Russ.)
  2. Teppeev, A.M. 1974. Balkarskaya proza. Nalchik: Elbrus publ. Print. (In Russ.)
  3. Akachieva, S.M. 1980. Karachaevskiy roman. Cherkessk: Karachaevo-Cherkesskoe otdelenie Stavropolskogo knizhnogo izdatelstva publ. Print. (In Russ.)
  4. Gachev, V.D. 1989. Neminuemoe. Uskorennoe razvitie literatury. Moscow: Khudozhestvennaya literatura publ. Print. (In Russ.)
  5. Kuliev, K.Sh. 1980. Slovo odobreniya. Elberd, M. Strashen put na Oshkhamakho. Nalchik: Elbrus publ. Print. (In Russ.)
  6. Moretti, F. 2013. Distant Reading. London; New York: Verso. Print.
  7. Orekhov, B. 2019. Bashkirskiy stikh XX veka. Korpusnoe issledovanie. St. Petersburg: Aleteya publ. Print. (In Russ.)
  8. Dodueva, S.Zh. 2007. Balkarskaya proza 1960—1980-h godov: Zhanrovaya specifica i nacionalnoe svoeobrazie: Candidate Thesis. Nalchik. Print. (In Russ.)
  9. Gulieva (Zanukoeva), F.Kh. 2015. Karachaevo-Balkarskaya neskazochnaya proza i ee tradicii v balkarskoy literature. Nalchik: FGBNU KBIGI publ. Print. (In Russ.)
  10. Burrows, J. 2002. ‘Delta’: a Measure of Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing 17 (3): 267—287. doi: 10.1093/llc/17.3.267
  11. Mamaev, N.K. et al. 2018. “Metod Delty Berrowza dlya opredeleniya avtorstva anonimnyh i psevdonimnyh literaturnyh proizvedeniy na russkom yazyke”. Proceedings of the R. Piotrowski’s Readings in Language Engineering and Applied Linguistics: 1—14.
  12. Eder, M. et al. 2016. “Stylometry with R: A package for computational text analysis”. The R Journal 8 (1): 107—121. doi: 10.32614/RJ-2016-007

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2022 Berberov A.B.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.