Обработка естественного языка для анализа политического определения миграции в хорватском политическом дискурсе



Полный текст


Статья посвящена решению проблемы предвзятости аналитиков при проведении сравнительного анализа политического дискурса. Предлагаемое решение строится на анализе данных и использовании машинного обучения для обработки естественного языка. Кейс, который мы изучаем в связи с этой проблемой, относится к определению проблемы миграции в хорватском политическом дискурсе. Была разработана система машинного обучения, которая выявляет наиболее характерные черты хорватского политического дискурса в отношении миграции: эта система свободна от исследовательской субъективности. Исследование воспроизводимо, и при условии, что используется тот же набор данных и алгоритм, любой ученый должен прийти к тем же выводам. Этот результат был достигнут на основе сбора корпус-текстов из новостных материалов и пресс-релизов с веб-сайтов хорватских политических партий, представленных в парламенте, а также группу алгоритмов классификации машинного обучения для матриц Bag-of-Words, вычисленных из корпуса. Мы определили наиболее точную модель, классификатор дерева решений, которая была выбрана для дальнейшего анализа из-за ее точности и интерпретируемости. Нами также проанализированы правила принятия решений, определенные этим классификатором, которые затем были интерпретированы людьми, чтобы определить политические особенности текста, которые лучше всего предсказывают связь этого текста с темой миграции. В итоге подробно раскрыты три правила, идентифицированные с этой процедурой, которые мы считаем особенно интересными.

Об авторах

Габриэле Де Лука

Российский университет дружбы народов

Email: gabriele.deluca@mail.ru
аспирант кафедры сравнительной политологии Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, 6

Марко Бек

Российский университет дружбы народов

Email: beck.marko@gmail.com
аспирант кафедры сравнительной политологии Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, 6

© Де Лука Г., Бек М., 2020

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

