Методы извлечения биомедицинских текстов из патентов и научных публикаций (на примере химических соединений)
- Авторы: Колпаков Н.А.1, Молодченков А.И.2,3, Лукин А.В.2,3
- Московский физико-технический институт
- Федеральный исследовательский центр «Информатика и управление» РАН
- Российский университет дружбы народов
- Выпуск: Том 31, № 1 (2023)
- Страницы: 64-74
- Раздел: Статьи
- URL: https://journals.rudn.ru/miph/article/view/34463
- DOI: https://doi.org/10.22363/2658-4670-2023-31-1-64-74
- EDN: https://elibrary.ru/VNWSXI
Полный текст
В данной статье предложен алгоритм для решения задачи извлечения информации из биомедицинских патентов и научных публикаций. Представленный алгоритм основан на методах машинного обучения. Авторами были проведены эксперименты на патентах из базы USPTO. Эксперименты показали, что лучшее качество извлечения продемонстрировала модель, построенная на основе BioBERT.
Об авторах
Н. А. Колпаков
Московский физико-технический институт
Email: kolpakov.na@phystech.edu
ORCID iD: 0000-0002-1640-1357
Master’s degree student of Phystech School of Applied Mathematics and Informatics
Институтский переулок, д.9, Долгопрудный, Московская область, 141701, Россия
Федеральный исследовательский центр «Информатика и управление» РАН; Российский университет дружбы народов
Email: aim@tesyan.ru
ORCID iD: 0000-0003-0039-943X
Candidate of Technical Sciences, Federal Research Center “Computer Science and Control” of RAS employee, employee of the Peoples’ Friendship University of Russia
ул. Вавилова, д.44, корп.2, Москва, 119333, Россия; ул. Миклухо-Маклая, д.6, Москва, 117198, Россия
Федеральный исследовательский центр «Информатика и управление» РАН; Российский университет дружбы народов
Автор, ответственный за переписку.
Email: antonvlukin@gmail.com
ORCID iD: 0000-0003-4391-1958
Federal Research Center “Computer Science and Control” of RAS employee, employee of the Peoples’ Friendship University of Russia
ул. Вавилова, д.44, корп.2, Москва, 119333, Россия; ул. Миклухо-Маклая, д.6, Москва, 117198, Россия
