Сентимент анализ как инструмент лингвоэмотиологии: оценка потенциала систем анализа тональности текста
- Авторы: Максименко О.И.1, Беляков М.В.2
-
Учреждения:
- Государственный университет просвещения
- Московский государственный институт международных отношений (университет) МИД России
- Выпуск: Том 16, № 3 (2025): Фразеология. Паремиология. Культура: к юбилею В.М. Мокиенко
- Страницы: 760-782
- Раздел: ФУНКЦИОНАЛЬНАЯ СЕМАНТИКА
- URL: https://journals.rudn.ru/semiotics-semantics/article/view/47350
- DOI: https://doi.org/10.22363/2313-2299-2025-16-3-760-782
- EDN: https://elibrary.ru/DCBVEJ
- ID: 47350
Цитировать
Полный текст
Аннотация
Оценка тональности текста в больших информационных потоках решается как качественными так и количественными методами. Качественные методы включают в себя, в первую очередь, методы лингвоэмотиологии, включая составление тональных словарей, используемых в том числе в компьютерных системах оценки тональности текста. В статье рассматриваются принципы функционирования систем автоматического анализа текста как метода компьютерного анализа текста, приводится анализ ряда современных систем анализа тональности текста. Определяются характеристики систем, на языковом материале размеченных корпусов кинорецензий и отзывов на товары известного маркетплейса выявляются достоинства и недостатки анализируемых систем. Особое внимание уделяется лингвистическим причинам недостатков оценки тональности, таким как многоязычие, разные способы представления текста пользователями, включая сокращенные формы или аббревиатуры, расшифровка которых затрудняет процесс анализа, жанровое разнообразие, имплицитные оценки, полисемия и омонимия лексики, модификаторы полярности, ирреальное наклонение, сарказм, ирония и пр. По результатам исследования делается вывод, что наиболее эффективным функционалом определения тональности, необходимом оценочном средстве для лингвоэмотиологии и лингвоконфликтологии, обладают программы, использующие гибридный метод. В работе предлагаются возможные подходы к оптимизации функционирования программ. Исследование позволяет приблизиться к более четкому пониманию феномена выявления тональности текста и выбора для этих целей систем сентимент анализа, основанных на разных принципах функционирования. Такие системы, с одной стороны, решают прикладные задачи сентимент анализа, а с другой - являются источником материала для исследований в рамках лингвистической теории эмоций.
Ключевые слова
Полный текст
Введение
Лингвистическая теория эмоций, или лингвоэмотиология, за последние десятилетия прошла этап становления и превратилась в самостоятельное и чрезвычайно востребованное направление современной лингвистики.
Виктор Иванович Шаховский, один из основоположников лингвистической теории эмоций, писал: «Эмоции как психическое явление отражают (то есть воспроизводят) в сознании человека его эмоциональные отношения к миру. Эти эмоциональные отношения являются хотя и субъективными, но социально осознанными и потому в определенной степени типизированными» [1. С. 88]. В семантику любого слова входят «актуальные или потенциальные семы эмоция и оценка» [2. С. 24], таким образом, оценка, эксплицитно или имплицитно реализованная в коммуникации, выражает мнение об объекте, действии и пр. и определяет статус эмотивной семантики лексической единицы. Типизация вербализованных эмоций позволяет проводить исследование тональности текста в автоматическом режиме. «В рамках дискурс-анализа понятие тональности не равно понятию оценки, а отражает стиль и «тон» коммуникации. За последнее время семантика термина тональность настолько расширилась, что можно говорить о фактической омонимии термина тональность как стилистического маркера и термина, связанного с оценкой высказывания в рамках анализа тональности (мнения) или компьютерного сентимент-анализа» [3. С. 186].
Сентимент-анализ как метод компьютерной лингвистики
С ростом интернет-сообщества увеличивается объем неструктурированной информации в сети: обзоры, комментарии разных событий, происходящих в мире. Извлечение сведений и фактов из материалов значительного объема с учетом высказываемого в них мнения вручную представляется задачей архисложной, а в ряде случаев и невозможной. Сентимент анализ является одним из современных инструментов аналитики, позволяющим выявить тональность текста при помощи методов NLP (Natural Language Processing), статистики и машинного обучения [4–6]. Под тональностью следует понимать эмоциональную составляющую, которая отражает отношение субъекта (автора высказывания) к объекту (к тому, о чем высказывается мнение).
При определении тональности текста, как правило, на первый план выходят несколько базовых компонентов:
- автор мнения (opinion holder), иногда именуемый источником мнения (opinion source), то есть некий субъект (отдельное лицо, группа людей, организация и т.п.), которому принадлежит мнение;
- объект (opinion target/entity) — сущность, об аспекте которой высказано мнение;
- сам аспект объекта, находящийся в центре внимания;
- содержание мнения (opinion content) — смысл, который вложил автор в свое высказывание.
Тональность (opinion sentiment), которая определяется путем анализа содержания (opinion content), показывает, какой сентимент несет в себе это изречение, то есть что чувствует, думает автор относительно того, о чем он пишет. Может проводиться анализ контекста (opinion context), что позволяет выявить, при каких условиях и обстоятельствах было высказано то или иное мнение и время выражения мнения (time) [7; 8].
Существуют разные виды тональной классификации. Наиболее простым способом является бинарное распределение, когда используются только два класса: положительный и отрицательный. Несмотря на кажущуюся простоту такого вида классификации, в некоторых случаях задача может быть усложнена. Например, иногда нужно определить, является ли политическая речь «за» или «против» обсуждаемого вопроса на дебатах или распределить рецензии на фильмы на классы: рекомендованные к просмотру или не рекомендованные [9]. Серьезным минусом данной классификации является то, что не всегда выражения можно однозначно отнести к определённому классу, так как они могут быть нейтральными. Более того, некоторые тексты могут содержать как позитивное, так и негативное отношение автора. В.И. Шаховский писал, что эмоции (и оценка) могут быть амбивалентными, т.е. «любовь и ненависть могут овладеть человеком одновременно. Данный факт указывает на полярность некоторых эмоций. Они могут образовывать оппозиты по типу оценочного знака (положительные/отрицательные), что отражается в лексической системе языка в сферах номинации эмоций (любовь/ненависть) и их выражения (замечательный/отвратительный)» [10. С. 30]. Таким образом, бинарная классификация эффективна только в случае выражения автором эксплицитной оценки (строго позитив или негатив). Усложненной версией бинарного распределения является классификация с добавлением нейтрального класса и дополнительных подклассов.
Автоматическое классифицирование текстовых фрагментов по критерию доминирующей в них эмоции еще один вид классификации. Так, возможно распределение текстов по 9 эмоциональным категориям, предложенным Г. Левхеймом: 1) интерес — возбуждение; 2) удовольствие — радость; 3) удивление; 4) страдание — тоска; 5) страх — ужас; 6) стыд — унижение; 7) брезгливость — отвращение; 8) злость — гнев; 9) нейтральные тексты [11]. Первая эмоция в классе отражает слабую степень выраженности, а вторая — наивысшее проявление [12; 13]. Использование n-балльного шкалирования позволяет получить числовое значение тональности. Текстовому фрагменту (t) присуждается числовое значение, например от –5 до 5, то есть если t > 0, то тональность положительная, если t < 0, то отрицательная, в случае когда t = 0, сентимент нейтральный.
Важнейшим понятием, связанным с тональностью, является субъективность. Тексты, содержащие мнения, оценки, эмоции, предположения попадают в категорию субъективных. К объективному классу относятся текстовые фрагменты, выражающие фактическую информацию без вмешательства личных интерпретаций. Укоренившаяся классификация по делению языковых единиц на субъективные и объективные единицы была признана неэффективной. Интерес исследователей перешел к классификации по релевантности. «Тональная релевантность — это понятие, позволяющее отличать информативное содержание для определения тональности документа от неинформативного. Оно контрастирует с обычным различием между субъективным и объективным содержанием» [14. С. 40]. Например, предложение “Bruce Banner, a genetics researcher with a tragic past, suffers a horrible accident” является субъективным, так как словосочетания tragic past и horrible accident» — субъективные понятия, вызывающие разные ассоциации у читателя. Несмотря на то, что предложение имеет субъективный негативный окрас, оно нерелевантное, поскольку связано с сюжетом фильма и может появляться в положительных отзывах. Объективное предложение “The movie won a Golden Globe for best foreign film” будет релевантным, так как выражает позитивное мнение автора [15. С. 955].
Анализировать тональность можно на уровне документа, в данном случае следует выявить общее мнение, выраженное во всем тексте; на уровне предложения происходит разметка каждого предложения в тексте; на уровне фраз в центре внимания не целые предложения, а отдельные фрагменты; определение тональности на аспектуальном уровне является самым точным и в то же время самым сложным видом анализа.
Принято выделять несколько подходов к распознаванию тональности:
- на основе словарей оценочной лексики, когда каждому слову присваивается индекс в виде числовой характеристики из словаря, затем подсчитывается среднее арифметическое всех слов в тексте и определяется тональность;
- на основе правил (в этом случае экспертом составляется перечень правил в зависимости от языка и предметной области анализируемого фрагмента);
- с применением машинного обучения с учителем, когда классификатор обучается на размеченной коллекции текстов, составленной вручную, после чего строится классификатор, определяющий тональность новых документов;
- с применением машинного обучения без учителя, когда отличие от вышеупомянутого метода заключается в отсутствии заранее размеченной выборки. Идея заключатся в выделении терминов с наибольшим весом. В эту категорию попадают термины, которые встречаются чаще всего в конкретном тексте и присутствуют в небольшом количестве в остальных текстах из коллекции, на их основе определяется тональность;
- гибридный метод, который предполагает использование нескольких рассмотренных выше способов, к примеру, тональные словари и правила.
Несмотря на большое количество трудов и проведенных экспериментов по тональному анализу эксперты сталкиваются с рядом факторов, препятствующих точному анализу, среди них многоязычие; разные способы представления текста пользователями, например, сокращенные формы или аббревиатуры, расшифровка которых затрудняет процесс; жанровое разнообразие; имплицитные оценки; многозначность лексики; модификаторы полярности; ирреальное наклонение; определение реальных чувств сообщающего информацию; успех или неудача одной стороны относительно другой; сарказм и ирония и пр.
Материал исследования
Существующие программные решения в большинстве случаев ориентированы на анализ тональности английских текстов. Количество систем для русского языка весьма ограничено, при этом большая часть из них находится в закрытом доступе. В начале 2025 г. был представлен следующий список лучших программ сентимент анализа: Brand24, Qualtrics, SproutSocial, OpenText, Semantria, Meltwater, Dialpad, MonkeyLearn, Sentigem, SentiStrength, Reputation.com, Mentionlytics, Hootsuit, SentiSum, Mediallia[1]. Некоторые из них входили в списки надежных систем и ранее.
С целью тестирования программ был проведен обзор находящихся в свободном доступе систем автоматического определения тональности для английских текстов. Среди рассматриваемых были системы, работа которых основана на разных принципах. Принцип машинного обучения: Eureka Engine, SummarizeBot, MonkeyLearn, Microsoft Text Analytics API, Sentiment analyzer, Texterra, Megaputer. Принцип рекурсивных нейросетей — Stanford NLP; рекуррентных нейросетей — ParallelDots, словарный метод — Sentistrength, гибридный метод — Repustate, работа на правилах — Watson Tone Analyzer, Pattern; Sentigem — принцип неизвестен.
Тестирование проводилось на открытых корпусах кинорецензий (IMDb[2]) и отзывов на товары электронной торговой площадки (Amazon[3]). Определяющими факторами при выборе языкового материала стали следующие:
- тексты подобного рода априори предполагают выражение мнения об объекте и, соответственно, его оценку, выраженную вербально;
- возможность получения доступа к уже размеченному корпусу текстов.
Процедура и результаты
Для тестирования систем автоматического определения тональности с целью выявления имеющихся недостатков и достоинств было отобрано пять программ, различающихся по принципам работы.
1. Sentistrength
Программа строится на основе словаря эмоционально окрашенных слов с соответствующими весами, отражающими силу тональности. Международная социальная сеть MySpace является источником создания встроенных словарей. При скачивании программы в обязательном порядке загружается архив, в котором помимо английского словаря также присутствуют: словарь слов‑усилителей и словарь слов, понижающих тональность; словарь эмотиконов; словарь идиом; словарь сленга, словарь вопросительных и отрицательных лексем. Следует отметить, что слова, включенные в словарь, прошли процесс стемминга и представлены без аффиксов. Это значит, что при анализе будут учтены все словоформы, представленные в рецензиях. Для получения результатов отдельно суммируются веса положительных и отрицательных лексем. Для оценки тональности рецензии суммировались два полученных результата (см. Табл. 1).
Таблица 1 / Table 1
Результаты тестирования программы Sentistrength / Test results of Sentistrength
Метрики классификации / Rating Metrics | Кинорецензии / Film Reviews | Отзывы Amazon / Amazon Reviews |
Точность определения положительных отзывов / Accuracy of positive feedback | 0,68 | 0,65 |
Точность определения отрицательных отзывов / Accuracy of negative feedback | 0,77 | 0,7 |
Правильность классификации / Correct classification | 70/100 | 60/100 |
Источник: соcтавлено О.И. Максименко, М.В. Беляковым. / Source: compiled by Olga I. Maksimenko, & Mikhail V. Belyakov.
Возможные причины ошибок:
В отзывах с описанием сюжетов фильмов о военных событиях и последствиях войны превалирует отрицательно окрашенная лексика, например: quick-and-dirty battle, disgusted with the gruesome war, it’s hellish effect on the land is timelessly relevant, terrible repercussions. Говоря о сюжете, пользователь выражает позитивное мнение о том, как представлены военные картины (“It is a unique vision of an era that is sure not only to entertain but also to truly absorb the audience into the lives of a people torn apart by a wa”, “an inspiring war drama”), однако программа определяет общую тональность как отрицательную, поскольку при подсчете весов отрицательной лексики оказывается больше. В данном случае следует говорить о тональной релевантности, поскольку описание сюжета фильма не имеет отношения к тональности текста. То же самое касается и рецензий, в которых автор высказывает мнение о триллерах или фильмах ужасов. Как правило, главными механизмами воздействия таких жанров являются тревога и напряжение, в связи с чем отзывы насыщены лексикой с отрицательной коннотацией, что, в свою очередь, служит причиной ошибочного отнесения отзыва к отрицательному классу. Примеры: “beats their host (Sam Levene) to death”, “a gay-bashing murder”, “Ryan’s murderous rage”, “Restlessness”, “the mad scientist is shot and drops dead shortly afterwards”, “Ryan, naturally, does his prototypical Angry White Male”, “they report these murders to the police”, “a mission of revenge” и пр.
В данном случае отнесение выделенных лексем к отрицательному классу неправомерно, поскольку они отражают специфику жанра и являются элементом описания сюжета, а не оценки.
Еще одной причиной некорректности работы системы является присвоение множеству окрашенных слов нулевого веса, что говорит о возможном отсутствии в тональном словаре значимого количества лексем, вызванного несистематичностью проведения обновлений. Отсутствие актуализирующих словарь систематических обновлений является причиной того, что многие выражения, идиомы, сокращения, используемые в настоящее время в сети, в словаре не представлены. Например, прилагательным taut и gripping присвоен нулевой вес, однако они являются положительно окрашенными и выражают мнение автора.
К недостаткам программы следует отнести и то, что её работа строится без учета синтаксиса, каждое слово анализируется отдельно, а это ведет к ошибке в результатах. Например:
- вне контекста существительное restlessness можно отнести к отрицательным, но в словосочетании cope with their restlessness тональность меняется на положительную;
- существительным fight и evil программа справедливо присвоила отрицательный вес (-2), однако если объединить их в тональную цепочку, то словосочетание fight against evil следует отнести к разряду положительных;
- прилагательное crude имеет несколько значений. Программа помечает данное слово как отрицательное, поэтому можно предположить, что оно было рассмотрено в значении «грубый», «резкий» или «оскорбительный», однако в контексте, в котором оно встречается в отзыве (crude crayon drawing), прилагательное имеет нейтральную окраску. Это подтверждает, что слова при обработке рассматриваются по отдельности, а не в словосочетаниях.
Такая же ошибка программы допущена при классификации одного из отзывов, когда существительное charger (зарядное устройство) получило отрицательный индекс ввиду проекции значения глагола charge (взимать плату; обвинять) на данное существительное. Это свидетельствует об ограниченности встроенных в программу лексиконов и о необходимости расширения диапозона значений.
Несмотря на заявленный инструмент по коррекции правописания, система не распознает характерные для языка интернета сокращения, выставляя им нулевую тональность. Например: risible’n’ridiculous (risible and ridiculous).
К особенностям работы системы относится определение тональности всех значимых лексических единиц без исключения, что ведет к ошибке. “Night of Terror” (название фильма) в рецензии было выделено кавычками, но при анализе данный знак препинания был удален, существительное terror получило отрицательный вес, что повлияло на общую тональность. Избежать появления подобных ошибок можно путем введения правила, запрещающего программе оценивать именованные сущности, однако в таком случае система уже будет работать по гибридному принципу (лексиконы + правила).
К серьезным недостаткам следует отнести неверное определение частей речи и снятие омонимии, принципиально важных при анализе, поскольку одно и то же слово может иметь разную тональность в зависимости от того, какой частью речи в предложении оно является. Например, like может выступать в роли наречия, которое является нейтральным, однако нередко оно имеет положительный вес, указывающий на то, что данное слово было рассмотрено как существительное или глагол; подобная ситуация нередка и для слова kind, которое может быть существительным с нейтральной окраской, а не прилагательным.
Стоит отметить, что отрицательные отзывы классифицированы с меньшей точностью. Это можно объяснить игнорированием отрицательных слов, которые в ряде предложений меняют тональность на противоположную или снижают вес.
Среди недостатков, ведущих к ошибочной работе систем, была выделена проблема имплицитного выражения мнения. Так, в одном из отзывов пользователь перечисляет утомительную последовательность действий, которую ему пришлось выполнить для установки игры. Отзыв не насыщен отрицательно окрашенной лексикой, а содержит объективные факты, поэтому программа определила данный отзыв как нейтральный. Несмотря на наличие отрицательных модификаторов полярности will not, no, а также отрицательного наречия begrudgingly, финальное решение было выведено неверно.
В случае, где речь шла о необходимости адаптера для работы устройства, автор также не использует отрицательную лексику, давая объективную оценку. Имплицитная оценка — одно из наиболее актуальных препятствий для систем тональной классификации.
Несмотря на достаточно высокий результат, работа системы могла бы стать более корректной при внесении таких изменений, как:
- регулярное обновление и пополнение всех включенных словарей, которое даст возможность распознавания большего количества лексики;
- создание тематических лексиконов для каждого набора текстов (в данном случае — для кинорецензий и отзывов о товарах, преимущественно технических устройств), что позволит системе «адаптироваться» под конкретную тематику и выводить правильные веса для лексем (например, в контексте фильмов-ужасов прилагательные «кровожадный», «устрашающий» могут получить положительный вес);
- подключение синтаксического анализатора, который поможет выделять слова в синтаксические цепочки и анализировать словосочетания, а не отдельные слова;
- введение правила по присуждению нейтрального веса именам собственным, что также может повысить правильность и точность классификации.
2. SummarizeBot
Эта программа использует принцип машинного обучения для определения тональности, потому в результате дается не просто ответ о принадлежности текста к классу, а приводится подробный анализ, что позволяет анализировать причины допущенных ошибок. Каждому предложению присваивается положительный или отрицательный вес в зависимости от его тональности. Слова и выражения с позитивным сентиментом выделяются в анализируемом тексте зеленым цветом, с негативным — красным. Кроме того, выделяются объекты, по отношению к которым выражается мнение. Общая тональность выводится путем подсчета весов всех предложений (см. Табл. 2).
Таблица 2 / Table 2
Результаты тестирования программы SummarizeBot / Test results of SummarizeBot
Метрики классификации / Rating Metrics | Кинорецензии / Film Reviews | Отзывы Amazon / Amazon Reviews |
Точность определения положительных отзывов / Accuracy of positive feedback | 0,79 | 0,72 |
Точность определения отрицательных отзывов / Accuracy of negative feedback | 0,75 | 0,78 |
Правильность классификации / Correct classification | 77/100 | 75/100 |
Источник: соcтавлено О.И. Максименко, М.В. Беляковым. / Source: compiled by Olga I. Maksimenko, & Mikhail V. Belyakov.
Возможные причины ошибок:
Главным недостатком систем, которые используют машинное обучение в качестве подхода, является предметная ориентированность обучающей выборки. Программа хорошо справляется с текстами, которые максимально приближены к тренировочным, в других случаях возникают следующие неточности: если части сложносочиненного предложения соединены союзом «но», то в большинстве случаев доминирующей тональностью будет часть, идущая после коннектора, которая противопоставляется предыдущей. В ряде случаев видим, что данное правило не учитывается, и общая тональность определяется путем сложения весов всех тонально окрашенных слов, выделенных программой, и это ведет к ошибкам.
Данное правило актуально не только внутри одного предложения, но и между самими предложениями. Программа учитывает модификаторы полярности. При появлении отрицательных наречий, вспомогательных или модальных глаголов с частицей not тональность последующей лексемы меняется на противоположную (в случае отрицательной коннотации слова).
Стоит уточнить, что отрицательные слова не всегда меняют тональность, например, устойчивая конструкция no less не выражает отрицание, а используется, чтобы подчеркнуть важность чего-либо. Например, в случае “And Courtenay is no less convincing as the mincing dresser”, где конструкция less than не является отрицанием, программа не распознала это выражение. If not в ряде контекстов также не меняет тональность на отрицательную; can’t help — устойчивое выражение без негативного сентимента; no… like this — конструкция, имеющая в контексте отзыва ярко положительную окраску и означающая, что описываемый объект единственный в своем роде, ему нет равных, также в отзыве “No another grill like this” была неверно классифицирована; существительное с явно отрицательной коннотацией violence получает позитивный окрас, что объясняется стоящей перед ним отрицательной частицей not (“Not just violence, but injustice…”), которая меняет тональность, однако в данном случае это является ошибкой, поскольку в данном случае это не частица, а парный союз «не только…, но и…», в английском варианте — not only…, but also. Причиной данной неточности может быть тот факт, что в рецензии данный союз представлен в видоизмененном виде — not just…, but… Возможно, в тренировочной выборке присутствовали тексты, где союз был только в исходной форме, поэтому в рецензии распознан не был.
Заявлено, что в программе есть лингвистический анализатор, который автоматически проводит сегментацию текста, разбивая его на предложения, осуществляет процесс лемматизации, определяет часть речи у каждого слова, выявляет синтаксические цепочки. Следует отметить, что части речи не всегда определяются верно, допущенные ошибки могут повлиять на общую тональность: kind может иметь нейтральную тональность, поскольку является существительным в значении «вид», но программа классифицировала слово как положительное, подразумевая значение прилагательного «добрый». Несмотря на то, что программа определяет и слова, имеющие эмоциональную окраску, и объект, к которому они относятся, тональные цепочки не рассматриваются как единое целое, каждое слово оценивается отдельно, что тоже ведет к ошибкам, например, конфликтосодержащие существительные corruption и sabotage обозначены красным цветом, что означает негативную оценку, однако они сочетаются с глаголом deal with, поэтому оценка должна быть противоположной; глагол raise оценивается как положительный, но в сочетании с существительным question тональность, скорее, нейтральная; числительное «много» нередко определяется как имеющее положительный вес, однако не всегда увеличение количества или изобилие чего-либо будет иметь позитивный сентимент. Прилагательное sharp в сочетании с существительным wit будет иметь положительный окрас; если рассматривать прилагательное large в тональной цепочке large scale war effort, то тональность будет явно отрицательной. Условные предложения не распознаются системой, а классифицируются как обычные, что является серьезной ошибкой, поскольку, употребляя глаголы в сослагательном наклонении, пользователи выражают желания по поводу сюжетов фильмов или купленных товаров, а не говорят о реальных событиях. По статистике условные предложения в английском языке занимают 8 % всего текста. Можно предположить, что причиной ошибок является или малое количество таких предложений в обучающей выборке, или их отсутствие выражает сентимент.
3. Pattern
Работа программы осуществляется при помощи созданных экспертом правил, имеющих вид «если А, то Б». Текст разбивается на слова или последовательности слов. Полученные данные используются для выделения часто встречающихся шаблонов, которым присваивается положительная или отрицательная оценка. Создание правил является достаточно трудоемкой задачей, поскольку система должна содержать правило для каждой комбинации тонально окрашенных слов, находящихся в тональной библиотеке и для каждого типа предложений в тексте. Системы с таким подходом эффективны только для текстов конкретной тематики, перенос алгоритма на незнакомые документы не даст высоких результатов. Помимо правил готовятся тональные лексиконы, представляющие собой списки позитивных и негативных лексем. Программа соотносит каждую единицу входного текста с имеющимися единицами в словарях для определения веса (см. Табл. 3).
Таблица 3 / Table 3
Результаты тестирования программы Pattern / Test results of Pattern
Метрики классификации / Rating Metrics | Кинорецензии / Film Reviews | Отзывы Amazon / Amazon Reviews |
Точность определения положительных отзывов / Accuracy of positive feedback | 0,57 | 0,87 |
Точность определения отрицательных отзывов / Accuracy of negative feedback | 0,69 | 0,38 |
Правильность классификации / Correct classification | 60/100 | 61/100 |
Источник: соcтавлено О.И. Максименко, М.В. Беляковым. / Source: compiled by Olga I. Maksimenko, & Mikhail V. Belyakov.
Поскольку в результате анализа выдается только ответ, к какому классу принадлежит текст, то, в связи с отсутствием доступа к ходу работы программы, анализу были подвергнуты рецензии и отзывы, которые были неверно классифицированы.
В нескольких текстах, использовавшихся при анализе работы системы, присутствуют окказионализмы, которых нет в тональном словаре, поэтому программа их пропускает во время разметки, присуждая нулевой вес, среди них: “A woman-behind-the-man”, “We see the evil mad scientist Dr. Krieger played by Udo Kier”, “making Genetically-Mutated-soldiers”, “to bring a ton of look-alike creepy-woman based horrors”, “indulgence in long-takes-without-cutaways”, “Lifetime for Women with nothing better to do” movie”, “I mean it lacked all dramaticness”.
Причинами могут быть несоблюдение грамматических форм, сокращения, возможные опечатки, бленды разных типов, включая написание слов с использованием чисел. Программа не распознает такие фрагменты, поскольку правила не справляются с потоком неструктурированной речи. Например:
“Three names that actually have made them selfs pretty big in the movie biz” (them selfs = themselves; biz = business);
“c’mon, the entire mission gathers to see this elder sent home” (c’mon = come on);
“I really like Salman Kahn so I was really disappointed when I seen this movie”;
“It’s look like the DVD is due a Region 2 release soon” (2 вместо «to»);
“And then I’m comin’ upstairs” (comin’ = coming);
“And how you can be such a busybody and talk about ppl, when ur own life isn’t sorted out” (ppl = people; ur = your)
Субстандартная лексика, а именно ненормативные и неформальные выражения, инвективы, которые, вероятнее всего, не вошли в тональный лексикон, также оказывают влияние на классификацию: “that’s poop for you simpleton”; “«take the a**-whupping they deserve”, “against the notorious mutated hillbillies on their last day”, “Emmy has me absolutely gob-smacked”, “themes from the chum bucket”, “deep philosophy is bull****”.
Большинство отзывов, в которых встречаются условные предложения, также классифицированы неверно. Можно предположить, что в программе отсутствует правило, указывающее, как следует анализировать данный вид предложений. R. Narayanan [16] утверждает, что для такого вида предложений должны быть созданы специальные правила, поскольку условные предложения могут содержать эмоционально окрашенные слова, но не во всех случаях они выражают сентимент:
“If only Ed Wood could bring his subtle sense of flair and dignity to these remarkable scripts”;
“If it were longer, it might make more sense, but it still wouldn’t be much good”;
“I think if the movie did this it could have been very funny since both actresses are quite funny in their own ways and sitting here I can think of numerous scenarios that would have been a riot”;
“I suppose if you were going to sit in the same room and have line-of-sight with the device, lamp, etc. plugged into this control, it might work. Maybe”
Рецензии и отзывы с риторическими вопросами также представляют сложности для системы. Вопросительные предложения как способ выражения автором оценок не были достаточно изучены в области тонального анализа. По всей видимости, в программе отсутствует правило, которое бы «указывало» системе, как классифицировать такие предложения. Например:
“How can one recognize such brilliance and then see fit to replace it with such mediocrity?”;
“Canaanites wandered the earth…really? What were the scriptwriters thinking?”;
“If this book is so great, then why are there so many people who give it only one or two stars?”
Необходимость составления предметно-ориентированных словарей получила подтверждение и в ходе тестировании данной системы. Например, в тексте одной из проанализированных рецензий было следующее предложение: “I found myself looking at my watch more and more as the film went on”. В данном предложении отсутствуют слова с негативной коннотацией, однако тот факт, что во время просмотра фильма зритель все «больше и больше смотрел на часы», свидетельствует о том, что он дает негативную оценку. Можно допустить, что включение в тональный словарь выражения look at watch и создание правила, маркирующего, что появление данного словосочетания в контексте просмотра пользователем фильма дает отрицательную тональность, позволит программе верно классифицировать рецензию. В случае с выборкой Amazon в отзывах также часто встречаются оценки, не содержащие негативной лексики, однако вывод о тональности можно сделать по объективной информации, изложенной пользователем. Например, “As directed, I downloaded all of the files from the SE site (70MB on dial up! It is too much!), and then downloaded all of the user guides” — автор пишет о большом объеме данных, что определенно не является положительной характеристикой объекта. Тем не менее, система не классифицирует данный отзыв как негативный, поскольку в ее базе нет предметно-ориентированного словаря и релевантного для данной предметной области набора правил.
“This film laboured along with some of the most predictable story lines and shallow characters ever seen. The writer obviously bought the playbook “How to write a space disaster movie” and followed it play by play”. Прилагательные predictable и shallow в контексте отзывов о фильмах будут иметь негативный сентимент, что требует отдельно внести их в тональный словарь данной тематики, поскольку в других контекстах прилагательные могут быть нейтральными.
4. ParallelDots представляет собой пакет прикладных исследований с использованием искусственного интеллекта, в котором задача сентимент анализа является одним из включенных в пакет инструментов. Долгая краткосрочная память (long short-term memory, LSTM) считается особой разновидностью архитектуры рекуррентных нейронных сетей, на основе которых осуществляется работа системы. Превосходство рекуррентных нейросетей над другими видами заключается в использовании нейронами скрытого слоя предыдущих состояний сети для вычисления текущего (см. Табл. 4). Таким образом, полученная ранее информация о тональности какого-либо текстового фрагмента может повлиять на тональность анализируемого текста в данный момент. «LSTM сети были разработаны для решения проблемы долговременных зависимостей. Запоминание информации на продолжительный срок — это одна из основных особенностей этих сетей, не требующая продолжительного обучения»[4]
Таблица 4 / Table 4
Результаты тестирования программы ParallelDots / Test results of ParallelDots
Метрики классификации / Rating Metrics | Кинорецензии / Film Reviews | Отзывы Amazon / Amazon Reviews |
Точность определения положительных отзывов / Accuracy of positive feedback | 0,56 | 0,82 |
Точность определения отрицательных отзывов / Accuracy of negative feedback | 0,53 | 0,69 |
Правильность классификации / Correct classification | 54/100 | 68/100 |
Источник: соcтавлено О.И. Максименко, М.В. Беляковым. / Source: compiled by Olga I. Maksimenko, & Mikhail V. Belyakov.
Возможные причины ошибок:
Определение тональности с использованием рекуррентной нейронной сети LSTM показывает лучшие результаты по сравнению с другими нейросетями, но достигаемая точность классификации существенно зависит от того, насколько корпус, на котором обучается модель, близок по составу, теме и стилю текста к анализируемому корпусу, в данном случае — кинорецензий или отзывов о товарах с Amazon [17]. По результатам анализа трех метрик можно сказать, что тренировочная выборка, которая использовалась для обучения, существенно отличается от текстов кинорецензий и более приближена к выборке отзывов с портала Amazon. Кроме того, эффективность работы зависит от количества нейронов скрытого и входных слоев. Например, в работе А. Кузнецова и Д. Кочурова[5] экспериментально доказано, что увеличение нейронов скрытого слоя приводит к ухудшению работы тестовой выборки, а увеличение нейронов входного слоя, наоборот, улучшает. Однако система является закрытой, в свободном доступе присутствует демоверсия, информация об алгоритме работы не представлена. Известно, что системы, использующие нейросетевой метод работы, способны обучаться. Чем больше тестовая выборка, и чем больше итераций было произведено, тем качественнее работа.
5. Repustate
Программы, в основе которых лежит машинное обучение, могут демонстрировать высокие результаты, однако не всегда достигается правильная классификация. В совместной работе греческих и швейцарских исследователей [18] была выдвинута гипотеза о том, что машинное обучение, дополненное подходом, основанным на правилах, улучшит результаты анализа, поскольку помимо алгоритма, обучающегося на тренировочной выборке данных, правила будут «направлять» систему[6]. Однако стоит отметить, что результаты напрямую зависят от сходства текстов, подаваемых системе на вход, и текстов, которые использовались в качестве обучающей выборки (см. Табл. 5). Обновленная платформа предлагает следующие услуги: сентимент-анализ, извлечение данных (Text Mining), мультилингвальный подход[7].
Таблица 5 / Table 5
Результаты тестирования программы Repustate / Test results of Repustate
Метрики классификации / Rating Metrics | Кинорецензии / Film Reviews | Отзывы Amazon / Amazon Reviews |
Точность определения положительных отзывов / Accuracy of positive feedback | 0,72 | 0,9 |
Точность определения отрицательных отзывов / Accuracy of negative feedback | 0,68 | 0,83 |
Правильность классификации / Correct classification | 70/100 | 84/100 |
Источник: соcтавлено О.И. Максименко, М.В. Беляковым. / Source: compiled by Olga I. Maksimenko, & Mikhail V. Belyakov.
Возможные причины ошибок:
Как отмечалось ранее при анализе систем, использующих машинное обучение или правила в качестве подхода тональной классификации, причинами ошибок являются, прежде всего, отличие тестируемых текстов от обучающей выборки. В документации указано, что программа отлично справляется с эмотиконами и разного рода аббревиатурами, используемыми в интернете, следовательно, можно предположить, что тестирование проходило на неформальных интернет-текстах, составленных пользователями, однако многое зависит от тематики текстов. При подаче на вход системы незнакомой лексики или синтаксических структур возникают ошибки, поскольку программа их не распознает и пропускает. Кроме того, создание правил требуется для каждого тематического блока текстов, так как пользовательский контент довольно разнообразен. То, что можно применить для комментариев в социальных сетях, не даст точных результатов при анализе кинорецензий или отзывов. Более того, если рассматривать кинорецензии, составленные 10 лет назад, и отзывы, собранные за 2024 г., а также правила для их анализа, логично предположить, что для данных выборок необходим разный набор правил ввиду постоянного изменения языка.
По результатам тестирования пяти программ, использующих разные методы работы, на двух размеченных по бинарному принципу выборках — кинорецензии с сайта IMDb и отзывы пользователей на товары портала Amazon — получены следующие результаты:
- Sentistrength
Недостатки: устаревшие тональные лексиконы; неправильное определение частей речи; анализ без опоры на контекст; определение веса каждой единицы независимо от степени важности лексем; частичное игнорирование отрицательных слов, являющихся модификаторами.
Достоинства: возможность использования собственного словаря или существующего размеченного лексикона, который прошел предобработку.
- SummarizeBot
Недостатки: неверная классификация условных и сложносочиненных предложений с противительным союзом «но», учет модификаторов полярности только в непосредственной близости; ошибки при классификации устойчивых выражений; неверное определение частей речи; разрыв тональных цепочек.
Достоинства: определение объекта, о котором выражается мнение; подробное представление анализа (раздельное выделение цветом положительных и отрицательных лексем), способность работать с неструктурированными данными.
- Pattern
Недостатки: нет развернутого анализа; нет информации о используемом лексиконе и о правилах, встроенных в систему.
Достоинства: наряду с определением тональности система дает сведения о уровне субъективности текста.
- Repustate
Недостатки: отсутствие развернутого анализа.
Достоинства: сочетание двух методов классификации (правила и машинное обучение); возможность проведения анализа на 20 языках; обновление системы и обучение на новых данных.
- ParallelDots
Недостатки: отсутствие развернутого анализа; низкая точность определения отзывов.
Достоинства: широкий спектр текстов, на которых проходило обучение; использование усовершенствованного варианта архитектуры рекуррентных нейронных сетей.
Результаты сравнительного анализа приводятся в Таблице 6.
Таблица 6 / Table 6
Сравнительная таблица с результатами анализа программ / Comparative table of programme analysis
Программа / Programme | Метод работы / Method of operation
| Точность определения положительных отзывов / Accuracy of positive feedback | Точность определения отрицательных отзывов / Accuracy of negative feedback | Правильность классификации / Correct classification | |||
IMDb | Amazon | IMDb | Amazon | IMDb | Amazon | ||
Summarize Bot | машинное обучение machine / learning | 0,79 | 0,72 | 0,75 | 0,78 | 77 | 75 |
Senti-strength | словарный / vocabulary | 0,68 | 0,65 | 0,77 | 0,7 | 70 | 60 |
Repustate | гибридный метод / hybrid method | 0,72 | 0,9 | 0,68 | 0,83 | 70 | 84 |
Pattern | правила / rule | 0,57 | 0,87 | 0,69 | 0,38 | 60 | 61 |
Parallel-Dots | рекуррентные нейросети / recursive neural networks | 0,56 | 0,82 | 0,53 | 0,69 | 54 | 68 |
Источник: соcтавлено О.И. Максименко, М.В. Беляковым. / Source: compiled by Olga I. Maksimenko, & Mikhail V. Belyakov.
Определяющим фактором при тональной классификации является степень схожести лексических, синтаксических и стилистических особенностей анализируемого текста с данными, которые заложены в систему. Независимо от подхода (словарного, на основе правил, с использованием машинного обучения или гибридного) программа не даст высоких результатов, если данные, подающиеся на вход, неизвестны системе. Следовательно, необходимо настраивать программу на определенную предметную область: создать словари, включающие оценочные слова и словосочетания из текстов предполагаемого тестирования. Создание подобных словарей входит в задачи лингвоэмотиологии. Также необходимым условием является составление правил на основе выделения особенностей предварительно проанализированного текста. С программами, обучаемыми на эталонном корпусе, задача представляется более сложной, поскольку для эффективной работы требуется большой размеченный корпус. В свободном доступе имеются готовые аннотированные данные, однако далеко не для всех предметных областей.
Таким образом, можно сделать вывод, что подбирать программу для автоматической тональной классификации необходимо, в первую очередь, исходя из текстов, которые предполагается анализировать. Необходимо предварительно изучить документацию систем с тем, чтобы:
- понять на каких текстах проходило обучение, если в основе машинное обучение;
- проанализировать словарь, который используется системой, если работа базируется на словарном подходе;
- изучить правила, если информация о них имеется в открытом доступе.
Комментарии, отзывы, сообщения, которые представлены в интернете, меняются, как и язык в целом, даже иконические компоненты такие, как эмотиконы могут со временем выглядеть иначе. Необходимо постоянное обновление тональных лексиконов и обучающих выборок. Как показал анализ системы Sentistrength, словари которой обновляются нерегулярно, отсутствие новых данных ведет к ошибкам в классификации. Для сравнения, программа Repustate была обновлена в 2024 г., разработчики провели переобучение алгоритмов на новых данных, в результате система показала наиболее точный анализ.
В ходе анализа среди проблем, которые препятствовали верной классификации, были выделены следующие:
- Неоднозначное мнение и сравнение. Некоторые пользователи перечисляют ряд недостатков, которые их разочаровали в фильме, но в конце отзыва пишут, что в целом они довольны. Иногда, напротив, выражается восхищение режиссером, другими фильмами, которые были им сняты, но делается заключение, что просмотренный фильм не имеет ничего общего с предыдущими работами. Такая же тенденция просматривается и в случае с отзывами. Системе, оценивающей каждое предложение в тексте, на основе чего далее делается заключительное решение о тональности всего документа, работать с такими данными сложно. V. Aharonson и I. Becker [19] по результатам своего исследования предложили классифицировать тональность всего документа, принимая во внимание только последнее предложение, поскольку чаще всего именно в конце текста пользователи выражают окончательное мнение. Введение такого правила поможет решить проблему с подобными отзывами, но стоит отметить, что не каждая рецензия и отзыв строятся по такому принципу.
- Вариантом решения данной проблемы может быть разделение текстов на две группы и их отдельный анализ. Разные типы предложений требуют разных подходов при классификации. В проанализированных текстах наибольшую сложность вызвали условные и сложносочиненные предложения с противительным союзом.
- Необходимо рассматривать слова в их окружении, а не каждую единицу отдельно. Специфика работы словарного подхода заключается в оценке всех слов (исключения составляют стоп-слова, к которым относятся, в первую очередь, служебные части речи), что некорректно. Простая разметка текстов путем сравнения каждой единицы с включенными в тональный лексикон словами — неэффективный способ классификации, подключение правил, вероятно, позволит значительно улучшить результат.
- При тестировании анализировались все единицы, в том числе и имена собственные (именованные сущности), что неверно. Решение проблемы возможно путем создания правил тестирования.
В.И. Шаховский, формулируя основные положения лингвистической теории эмоций в работе «Категоризация эмоций в лексико-семантической системе языка», писал: «есть мир (объект), есть человек (субъект), способный отражать этот мир. Отражение мира человеком включает только то, что имеет для него значение в настоящий момент или составляет ценность» [20. C. 31–32]. Учитывая объем ежесекундно поступающей информации, имеющей в том числе и оценочную функцию, пакеты сентимент-анализа позволяют существенно ускорить процесс определения тональности входных текстов.
Заключение
Таким образом, отвечая на главный вопрос о наиболее эффективном методе определения тональности, необходимом оценочном средстве для лингвоэмотиологии и лингвоконфликтологии, отметим, что программа, использующая гибридный метод, лучше остальных справилась с задачей. Однако такие корректировки, как введение нескольких правил, подбор тематической обучающей выборки могут дать возможность значительного улучшения результатов.
1 Режим доступа: https://brand24.com/blog/best-sentiment-analysis-tools/ (дата обращения: 15.12.2024).
2 Режим доступа: https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie reviews?select=IMDB+Dataset.csv (дата обращения: 15.12.2024).
3 Режим доступа: https://www.kaggle.com/datasets/kritanjalijain/amazon-reviews (дата обращения: 15.12.2024).
4 Режим доступа: https://digiratory.ru/575 (дата обращения: 15.12.2024).
5 Режим доступа: https://scienceforum.ru/2018/article/2018009449 (дата обращения: 15.12.2024).
6 Режим доступа: https://www.zora.uzh.ch/id/eprint/39614/1/lrec2010.pdf (дата обращения: 15.12.2024).
7 Режим доступа: https://www.siachen.com/repustate/ (дата обращения: 15.12.2024).
Об авторах
Ольга Ивановна Максименко
Государственный университет просвещения
Автор, ответственный за переписку.
Email: maxbel7@yandex.ru
ORCID iD: 0000-0002-6611-8744
SPIN-код: 7708-5901
доктор филологических наук, профессор, профессор кафедры теории языка, англистики и прикладной лингвистики лингвистического факультета
105005, Российская Федерация, г. Москва, ул. Радио, д. 10а, стр. 2Михаил Васильевич Беляков
Московский государственный институт международных отношений (университет) МИД России
Email: m.belyakov@my.mgimo.ru
ORCID iD: 0000-0002-6230-9893
SPIN-код: 1761-5400
доктор филологических наук, доцент, профессор кафедры русского языка
119454, Российская Федерация, г. Москва, проспект Вернадского, д. 76Список литературы
- Шаховский В.И. Категоризация эмоций в лексико-семантической системе языка. Воронеж : Воронеж. гос. ун-т, 1987.
- Шаховский В.И. Лингвистическая теория эмоций: монография. М. : Гнозис, 2008.
- Беляков М.В. Лингвоаксиология и лингвосемиотика дипломатического дискурса (на материале открытой профессиональной дипломатии): дисс. … д. фил. наук. М., 2022.
- Беляков М.В. Анализ новостных сообщений сайта МИД РФ методом сентимент-анализа (ст. 2) // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2016. Т. 5. № 4. С. 115-124. EDN: WZZKRZ
- Максименко О.И. Анализ тональности текстов (сентимент-анализ) на материале текстов СМИ // IV Новиковские чтения: Функциональная семантика и семиотика знаковых систем. Сб. научных статей. 2012. Ч. 1. М. : РУДН. С. 96-105. EDN: WZZKRZ
- Introduction to Sentiment Analysis: What is sentiment analysis, 2018. Режим доступа: https://algorithmia.com/blog/introduction-sentiment-analysis (дата обращения: 10.01.2025).
- Agrawal R., Gupta N. Extracting knowledge from opinion mining // Advances in Data Mining and Database Management. Hershey : IGI Global, 2018. https://doi.org/10.4018/978-1-5225-6117-0
- Юрганов А.А. Сентимент анализа как инструмент исследования текстов // Проблемы современной науки и образования. 2017. № 29(111). С. 39-41. EDN: ZDMSVF
- Pang B., Lee L. Opining mining and sentiment analysis // Foundations and Trends in Information Retrieval. 2008. Vol. 2. № 1-2. Р. 1-135.
- Шаховский В.И. Эмоции как объект исследования в лингвистике // Вопросы психолингвистики. 2009. № 9. С. 29-43. EDN: LAULHF
- Колмогорова А.В., Калинин А.А., Маликова А.В. Кто и о чем говорит в «радостных» и «грустных» текстах: в поисках дискриминантных черт текстов разных эмоциональных тональностей // Известия Уральского федерального университета. Серия 2. Гуманитарные науки. 2019. Т. 21. № 4(193). С. 219-234. https://doi.org/10.15826/izv2.2019.21.4.078 EDN: JMPVSS
- Колмогорова А.В., Вдовина Л.А. Лексико-грамматические маркеры эмоций как параметры для сентимент анализа русскоязычных интернет-текстов // Вестник Пермского университета. Российская и зарубежная филология. 2019. Т. 11. № 3. С. 38-46. https://doi.org/10.17072/2073-6681-2019-3-38-46 EDN: VOGAAV
- Колмогорова А.В. Вербальные маркеры эмоций в контексте решения задач сентимент-анализа // Вопросы когнитивной лингвистики. 2018. № 1(54). C. 83-93. https://doi.org/10.20916/1812-3228-2018-1-83-93 EDN: QIWKPN
- Семина Т.А. Дихотомия субъективность vs. объективность и тональная релевантность в задачах анализа тональности // Вестник Московского государственного областного университета. Серия: Лингвистика. 2018. № 1. С. 38-45. https://doi.org/10.18384/2310-712X-2018-1-38-45 EDN: YRNQNH
- Scheible C., Schutze H. Sentiment relevance // Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia, 2013. P. 954-963.
- Narayanan R., Liu B., Choudhary A. Sentiment analysis of conditional sentences // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: ACL and AFNLP, 2009. P. 180-189. Режим доступа: https://www.researchgate.net/publication/221012837_Sentiment_Analysis_of_Conditional_Sentences (дата обращения: 10.01.2025). https://doi.org/10.3115/1699510.1699534
- Сбоев А.Г., Воронина И.Е. и др. Продвинутые нейросетевые модели для решения задачи определения тональности // Вестник Воронежского государственного университета. Сер. Системный анализ и информационные технологии. 2016. № 4. С. 178-183. EDN: XVSYZX
- Rentoumi V., Petrakis S., Klenner M. et al. United we stand: improving sentiment analysis by joining machine learning and rule based methods // 7th International Conference on Language Resources and Evaluation (LREC 2010), 19 Mai 2010-21 Mai 2010. Malta : Zurich Open Repository and Archive, University of Zurich. P. 954-963.
- Becker I., Aharonson V. Last but definitely not least: on the role of the last sentence in automatic polarity-classification // Proceedings of the ACL 2010 Conference Short Papers. Uppsala, 2010. P. 331-335. Режим доступа: https://www.researchgate.net/publication/220873476_Last_but_Definitely_Not_Least_On_the_Role_of_the_Last_Sentence_in_Automatic_Polarity-Classification, (дата обращения: 10.01.2025).
- Шаховский В.И. Обоснование лингвистической теории эмоций // Вопросы психолингвистики. 2019. № 1(39). С. 22-37. https://doi.org/10.30982/2077-5911-2019-39-1-22-37 EDN: SKQDYO
Дополнительные файлы







