Methods of extracting biomedical information from patents and scientific publications (on the example of chemical compounds)

Nikolay A. Kolpakov; Колпаков Н. А.; Alexey I. Molodchenkov; Молодченков А. И.; Anton V. Lukin; Лукин А. В.

doi:10.22363/2658-4670-2023-31-1-64-74

Методы извлечения биомедицинских текстов из патентов и научных публикаций (на примере химических соединений)

Авторы: Колпаков Н.А.¹, Молодченков А.И.²^,3, Лукин А.В.²^,3
Учреждения:
1. Московский физико-технический институт
2. Федеральный исследовательский центр «Информатика и управление» РАН
3. Российский университет дружбы народов
Выпуск: Том 31, № 1 (2023)
Страницы: 64-74
Раздел: Статьи
URL: https://journals.rudn.ru/miph/article/view/34463
DOI: https://doi.org/10.22363/2658-4670-2023-31-1-64-74
EDN: https://elibrary.ru/VNWSXI

Цитировать

Полный текст

Аннотация
Об авторах
Список литературы
Статистика

Аннотация

В данной статье предложен алгоритм для решения задачи извлечения информации из биомедицинских патентов и научных публикаций. Представленный алгоритм основан на методах машинного обучения. Авторами были проведены эксперименты на патентах из базы USPTO. Эксперименты показали, что лучшее качество извлечения продемонстрировала модель, построенная на основе BioBERT.

Ключевые слова

машинное обучение, обработка естественного языка, извлечение именованных сущностей, обработка биомедицинских текстов

Об авторах

Н. А. Колпаков

Московский физико-технический институт

Email: kolpakov.na@phystech.edu
ORCID iD: 0000-0002-1640-1357

Master’s degree student of Phystech School of Applied Mathematics and Informatics

Институтский переулок, д.9, Долгопрудный, Московская область, 141701, Россия

А. И. Молодченков

Федеральный исследовательский центр «Информатика и управление» РАН; Российский университет дружбы народов

Email: aim@tesyan.ru
ORCID iD: 0000-0003-0039-943X

Candidate of Technical Sciences, Federal Research Center “Computer Science and Control” of RAS employee, employee of the Peoples’ Friendship University of Russia

ул. Вавилова, д.44, корп.2, Москва, 119333, Россия; ул. Миклухо-Маклая, д.6, Москва, 117198, Россия

А. В. Лукин

Федеральный исследовательский центр «Информатика и управление» РАН; Российский университет дружбы народов

Автор, ответственный за переписку.
Email: antonvlukin@gmail.com
ORCID iD: 0000-0003-4391-1958

Federal Research Center “Computer Science and Control” of RAS employee, employee of the Peoples’ Friendship University of Russia