КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 20-11-20166

НазваниеАвтоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий

РуководительЛукашевич Наталья Валентиновна, Доктор технических наук

Организация финансирования, регион Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени M.В.Ломоносова», г Москва

Период выполнения при поддержке РНФ 2020 г. - 2022 г. 

Конкурс№45 - Конкурс 2020 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-509 - Извлечение знаний, базы данных и базы знаний

Ключевые словабаза знаний, распознавание именованных сущностей, извлечение отношений из текстов, межъязыковой перенос, многозадачное обучение

Код ГРНТИ28.23.13


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Цель проекта — разработка методов глубокого обучения для построения графа знаний на основе неструктурированных текстовых данных на различных языках с использованием ограниченного набора обучающих примеров. Дополнительно мы ставим целью разработку новых открытых наборов данных, которые можно использовать для оценки точности разработанных методов. Для достижения этих целей мы планируем решить следующие задачи: — Разработка сквозной (end-to-end) межъязыковой системы распознавания именованных сущностей и извлечения отношений; — Использование многозадачного обучения (multitask learning) на моноязычных и многоязычных данных; — Использование разработанных методов выделения сущностей и отношений для построения и расширения многоязычных графов знаний; — Разработка архитектур кодирования-декодирования (encoder-decoder architectures) для задачи построения многоязычного графа знаний путем адаптации современных методов генерации текста к графам знаний. Методы, разработанные в рамках проекта, будут оцениваться на аннотированных наборах данных на русском языке, подготовленных в рамках проекта. Кроме того, на существующих наборах данных будет оцениваться эффективность методов переноса обученных моделей (transfer learning) между языками и предметными областями. Существующие исследования области обработки естественного языка (natural language processing, NLP), как правило, фокусируются на изолированных задачах, таких как анализ тональности, машинный перевод, распознавание именованных сущностей, извлечение отношений и т. д. Однако эти подходы по отдельности не позволяют решить задачу понимания текста на естественном языке и извлечения знаний из текста. Графы знаний (knowledge graphs) де-факто являются стандартом для машинного представления человеческих знаний. Графы знаний используются во многих поисковых системах, вопросно-ответных системах и системах общения, таких как Google Assistant, Amazon Alexa и Apple Siri. Тем не менее, полностью автоматическое сквозное (end-to-end) преобразование текста в граф знаний в условиях ограниченного обучающего набора и многоязычных данных остается нерешенной задачей. Графы знаний, полученные полностью автоматически на основе текстовых данных, обеспечат существенный прогресс в области понимания естественного языка. Решение этой задачи позволит разработать унифицированную и универсальную архитектуру, которая будет существенно отличаться от современных подходов, которые являются очень специализированными и негибкими. В таких архитектурах извлечение графов знаний из текста будет первым шагом, который будет одинаковым для большинства приложений. В конкретных приложениях, таких как вопросно-ответные системы, автоматическое реферирование, диалоговые системы, извлечение информации и т. д., графы знаний будут использоваться в качестве промежуточных представлений. Это приблизит нас к полностью автоматическому пониманию языка.

Ожидаемые результаты
Предлагаемый проект расширит существующие архитерктуры и подходы за счет интеграции задачи связывания выделенных сущностей с сущностями графа знаний. Также в рамках проекта будут разработаны методы многозадачного обучения в многоязычном контексте. В частности, он объединит современные подходы к нейронному машинному переводу (NMT) без обучающих данных, многозадачное обучение с использованием предварительно обученных моделей (например, модели типа BERT) и сквозному совместному обучению для извлечения сущностей и отношений. Работа по этим направлениям позволит создать принципиально новые современные методы, в которых графы знаний тесно интегрированы в модели глубокого обучения. Разработанные модели позволят обновлять базы знаний в фоновом режиме на основе анализа поступающей текстовой информации В результате проекта будут размечены текстовые корпуса, которые не имеют аналогов среди открытых русскоязычных корпусов, поскольку в них будут представлены одновременно три слоя семантических аннотаций (разметка сущностей, отношений и их отображение на граф знаний). Для разметки русскоязычных данных будут максимально использованы лучшие существующие межъязыковые технологии, использование которых обеспечит автоматическую поддержку ручной разметки и даст возможность разметить больший объем размеченной коллекции по сравнению с существующими размеченными данными. В результате будут исследованы автоматические методы построения графов знаний для новостных текстов и текстов конкретной предметной области (биомедицина). Все используемые методы будут соответствовать мировому уровню исследований. Практическая значимость исследования состоит в том, что потребность извлечения знаний из текстов, их интеграции и представления в формализованном виде графов знаний ощущается в различных предметных областях, включая право (LegalTech), финансы (FinTech), медицину, сферу безопасности и др. Но усилия специалистов в конкретных предметных областях разрозненны, им не хватает качественно размеченных данных и развитых технологий. В рамках данного проекта будут выработаны методы и процедуры, полезные в различных задачах извлечения и формализации знаний.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
В первый год реализации проекта работы велись по двум направлениям: создание размеченных ресурсов и эксперименты с методами выделения именованных сущностей и отношений. Каждое из направлений в свою очередь разбивается на работу с текстами общей тематики и биомедицинскими текстами. В качестве основы для разрабатываемого корпуса текстов NEREL общей тематики мы выбрали проект Викиновости (https://ru.wikinews.org/). Тексты этого проекта распространяются по лицензии Creative Commons Attribution (CC-BY), что позволяет модифицировать и распространять полученные данные без ограничений, что особенно важно для открытого научного проекта. Еще одно преимущество Викиновостей в том, что некоторые сущности, упоминаемые в тексте, связаны со страницами Википедии. Это в свою очередь позволяет связать их с сущностями Викиданных, что важно для задачи связывания сущностей (entity linking). Первоначальный объем корпуса – около 23000 новостных сообщений, из которого было выделено 2000 текстов для последующей разметки. На основании обзора существующих наборов данных с разметкой именованных сущностей и отношений был разработан набор типов для разметки корпуса NEREL. Текущий набор включает в себя 29 типов сущностей и 45 типов отношений, он будет уточнен на втором году проекта. Разработана инструкция для разметки, проведена пилотная разметка сущностей (900 текстов) и отношений (400 текстов). Важной особенностью принятой схемы разметки является вложенность разметки, а также разметка на уровне дискурса (отношения между предложениями). Такой подход существенно усложняет разметку, но размеченный таким образом ресурс может использоваться для обучения и тестирования более широкого спектра моделей и методов, а также анализа различных лингвистических феноменов. Такой подход к разметке является новым и перспективным. Основой биомедицинского корпуса NEREL-BIO стали 6029 рефератов статей из коллекции PubMed. Преимущество этого источника в том, что рефераты имеют перевод на английский язык, кто позволяет исследовать методы межъязыкового переноса моделей извлечения именованных сущностей, отношений и связывания с базами знаний в данной предметной области. Ранее эта коллекция использовалась в задачах семинара по оценке методов машинного перевода (http://www.statmt.org/wmt20/). Из коллекции выделен 361 документ для пилотной ручной разметки и 2000 документов, которые должны составить корпус NEREL-BIO. Проведен анализ существующих аннотированных ресурсов биомедицинской тематики, на основе анализа разработана схема разметки. Схема включает 15 семантических групп медицинской онтологии UMLS, а также девять типов отношений, которые базируются на отношениях Wikidata, релевантных биомедицинской области. Разработанная схема богаче и выразительнее схем, которые применялись в существующих аннотированных ресурсах биомедицинской тематики. Нами разработана инструкция и проведена разметка пилотной коллекции. Эксперименты первого года, направленные на разработку моделей выделения сущностей и отношений из текста, в основном исследовали возможности использования существующих аннотированных данных для предобучения, дообучения на специализированных коллекциях, а также межъязыкового переноса. В частности, в экспериментах с текстами общей тематики использовались модели mBERT и RuBERT, дообученные на данных корпусов Collection3, RURED, RuReBus. Специализация моделей BERT исследовалась на новостных корпусах и коллекциях текстов по компьютерной безопасности (модели RuNewsBERT и CyberBERT). Исследованы подходы для извлечения отношений гипоним-гипероним (класс-подкласс), которые являются основной большинства онтологий и графов знаний. В рамках этой задачи исследовались востребованные на практике методы без привлечения внешних источников данных, а также подготовлены двуязычные данные для оценки качества извлечения отношения гипоним-гипероним на основе оригинального метода, использующего последовательные версии тезаурусов WordNet и RuWordNet. На подготовленных данных были проведены эксперименты для русского и английского языков, использующие широкий спектр методов. Проведены эксперименты по переносу обучения с английского языка на русский язык на материале корпусов TACRED и RURED (использована нейросетевая архитектура MUSE-BiLSTM-CRF). Исследованы методы извлечения отношений TRE и SpanBERT на русскоязычном корпусе RURED. В части методов для извлечения сущностей из текстов биомедицинской тематики мы провели эксперименты по переносу моделей между тремя языками -- английским, французским и румынским (на материале корпусов MedMentions, Quaero и Monero). В экспериментах использовалась модель mBERT. Кроме того, изучена эффективность переноса знаний между английскими и русскими биомедицинскими текстами (использовались английский MedMentions, а также русские RuEHR и RuDReC). Результаты экспериментов можно использовать как «черновую разметку» данных для последующей ручной верификации, что значительно сокращает сложность разметки по сравнению с разметкой «с нуля». Полученные результаты создают основу для дальнейшего развития методов извлечения именованных сущностей и отношений, основанных на межъязыковом переносе (cross-lingual transfer) и переносе между предметными областями (cross-domain transfer).

 

Публикации

1. Иванин В.А, Артемова Е.Л., Батура Т.В., Тутубалина Е.В., Смуров И.М. Rurebus-2020 shared task: Russian relation extraction for business | RUREBUS-2020: СОРЕВНОВАНИЕ ПО ИЗВЛЕЧЕНИЮ ОТНОШЕНИЙ В БИЗНЕС-ПОСТАНОВКЕ Komp'juternaja Lingvistika i Intellektual'nye Tehnologii,, 416-431 (год публикации - 2020) https://doi.org/10.28995/2075-7182-2020-19-416-431

2. Никишина И., Логачева В., Панченко А., Лукашевич Н. Studying Taxonomy Enrichment on Diachronic {W}ord{N}et Versions Proceedings of the 28th International Conference on Computational Linguistics, стр. 3095--3106 (год публикации - 2020)

3. Тихомиров М.М., Лукашевич Н.В., Сиротина А.А., Добров Б.В. Using BERT and Augmentation in Named Entity Recognition for Cybersecurity Domain Natural Language Processing and Information Systems. NLDB 2020., Lecture Notes in Computer Science, vol 12089 (год публикации - 2020) https://doi.org/10.1007/978-3-030-51310-8_2

4. Тихомиров М.М., Лукашевич Н.В.,Сиротина А.А., Добров Б.В. Pretraining and augmentation in named entity recognition task for cybersecurity domain in Russian | ПРЕДОБУЧЕНИЕ И АУГМЕНТАЦИЯ В ЗАДАЧЕ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ ПО ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, 724-735 (год публикации - 2020) https://doi.org/10.28995/2075-7182-2020-19-724-735


Аннотация результатов, полученных в 2021 году
Проект посвящен задаче автоматического пополнения графов знаний по текстам, что требует реализации трех типов задач извлечения информации из текстов: распознавание именованных сущностей, извлечение отношений и связывание именованных сущностей с базой знаний. Работы ведутся по трем основным направлениям: -- Создание размеченных корпусов для русского языка для обучения современных моделей на основе нейронных сетей для решения перечисленных задач извлечения информации, -- Исследование нейросетевых моделей для решения вышеперечисленных задач извлечения информации -- Исследование межъязыковых векторных представлений, межязыковых походов для переноса моделей извлечения информации с одного языка на другой. Каждое из направлений в свою очередь разбивается на работу с текстами общей тематики и биомедицинскими текстами. В 2021 году был создан корпус NEREL, включающий более 1900 новостных текстов на русском языке, размеченный по 29 типам именованных сущностей, 49 типам отношений и связями размеченных сущностей с графом знаний Wikidata. Особенностью разметки именованных сущностей является разметка вложенных сущностей. когда внутри объемлющей сушности могут быть размечены еще именованные сущности. Такая вложенная разметка дает дополнительные возможности для установления отношений и связывания сущностей с базой знаний, по сравнению с обычной, “плоской” разметкой именованных сущностей, не позволяющей вложенность. Разметка отношений выполняется, как между сущностями упоминаемыми в одном предложении, так и между упоминаниями сущностей в разных предложениях. Созданная разметка отношений дает возможность для порождения трех отдельных специализированных датасетов для извлечения отношений: извлечения отношений для отдельного предложения, из пар соседних предложений и на уровне целого документа. Корпус NEREL представляет собой данные с тремя уровнями разметки уникального объема и структуры, которые отсутствуют для любых других языков, кроме, возможно, английского языка. Корпус дает возможность экспериментов с моделями отдельных уровней: извлечение именованных сущностей. извлечение отношений, связывание сущностей (entity linking), а также исследования сквозных (end-to-end) моделей, сочетающих решение двух или трех отдельных задач. Кроме того, создана первая версия корпуса NEREL-BIO абстрактов статей биомедицинской тематики на русском языке, размеченная 45 типами сущностей и 69 типами отношений. Особенностью разметки является сохранение преемственности с корпусом общей тематики NEREL, что проявляется в том, что также размечаются вложенные сущности. Кроме того, для разметки используется полный инвентарь сущностей и отношений корпуса NEREL, к которым добавляются специализированные типы сущностей и отношений биомедицинской тематики. Создание такого корпуса с включением типов сущностей и отношений общей тематики дает новые возможности для переноса моделей между разными предметными областями. В ходе экспериментов с моделями извлечения сущностей и отношений на размеченных данных NEREL было выявлено, что для качественной работы с вложенными именованными сущностями требуется применение специализированных моделей. Было исследовано применение четырех моделей, показывающих результаты State-of-the Art на англоязычных данных с вложенными именованными сущностями. Было показано, что лучшие результаты в извлечении вложенных именованных сущностей достигаются моделью MRC (Machine Reading Comprehension), которая преобразует задачу выделения именованных сущностей в задачу ответа на вопросы, где вопросом является описание типа сущности, которую необходимо найти в предложении. В то же время данная модель является очень ресурсно затратной, поскольку каждое предложение обрабатывается столько раз, сколько типов сущностей присутствует в разметке. Также выяснилось, что state-of-the art модели извлечения отношений либо не могут работать с вложенными отношениями, установленными внутри объемлющей именованной сущности, либо выдают по ним низкие результаты, что требует дополнительных исследований

 

Публикации

1. Иванин В., Артемова Е., Батура Т., Иванов В., Саркисян В., Тутубалина Е., Смуров И. RuREBus: A Case Study of Joint Named Entity Recognition and Relation Extraction from E-Government Domain International Conference on Analysis of Images, Social Networks and Texts, AIST 2020, Lecture Notes in Computer Science, vol 12602, с. 19-27 (год публикации - 2021) https://doi.org/10.1007/978-3-030-72610-2_2

2. Лукашевич Н., Артемова Е., Батура Т., Браславский П., Денисов И., Иванов В., Манандхар С., Пугачев А., Тутубалина Е. NEREL: A Russian Dataset with Nested Named Entities, Relations and Events Proceedings of the International Conference on Recent Advances in Natural Language Processing RANLP-2021, стр. 876–885 (год публикации - 2021) https://doi.org/10.26615/978-954-452-072-4_100

3. Мазитов Д.,Алимова И., Тутубалина Е. Named Entity Recognition in Russian Using Multi-Task LSTM-CRF Записки научных семинаров ПОМИ, Т.499, стр. 222-235 (год публикации - 2021)

4. Никишина И., Лукашевич Н., Логачева В., Панченко А. Exploring Graph-based Representations for Taxonomy Enrichment Proceedings of the 11th Global Wordnet Conference, p. 126--136 (год публикации - 2021)


Аннотация результатов, полученных в 2022 году
Проект посвящен задаче автоматического пополнения графов знаний по текстам, что требует реализации трех типов задач извлечения информации из текстов: распознавание именованных сущностей, извлечение отношений и связывание именованных сущностей с базой знаний. Исследования велись по трем основным направлениям: -- Создание размеченных корпусов для русского языка для обучения современных моделей на основе нейронных сетей для решения перечисленных задач извлечения информации, -- Исследование нейросетевых моделей для решения вышеперечисленных задач извлечения информации, -- Исследование межъязыковых векторных представлений, межъязыковых подходов для переноса моделей извлечения информации с одного языка на другой. Каждое из направлений в свою очередь разбивается на работу с текстами общей тематики и биомедицинскими текстами. 1. В рамках проекта созданы два корпуса с тремя уровнями разметки: разметка именованных сущностей, разметка отношений между сущностями, и разметка связей сущностей с графом знаний 1.1. Корпус общей направленности NEREL содержит 1900 новостных текстов (основной источник WikiNews), размечен по 29 типам именованных сущностей, 49 типам отношений, для 17 типов сущностей размечены связи сущностей элементами графа знаний Wikidata. 1.2 Корпус биомедицинских абстрактов NEREL-BIO содержит 1145 текстов, 36 типов сущностей, 35 типов отношений, для трех типов сущностей (болезни, анатомия и химические вещества) сделано связывание с понятиями медицинской базы знаний UMLS. Особенностью разметки сущностей в обоих корпусах является разметка вложенных сущностей. когда внутри объемлющей сушности могут быть размечены еще именованные сущности. Такая вложенная разметка дает дополнительные возможности для установления отношений и связывания сущностей с базой знаний, по сравнению с обычной, “плоской” разметкой именованных сущностей, не позволяющей вложенность. Разметка отношений выполняется, как между сущностями упоминаемыми в одном предложении, так и между упоминаниями сущностей в разных предложениях. Созданная разметка отношений дает возможность для порождения трех отдельных специализированных датасетов для извлечения отношений: извлечения отношений для отдельного предложения, из пар соседних предложений и на уровне целого документа. В 2022 году производилось тестирование качества размеченных данных и было выполнена разметка корпуса NEREL-BIO ссылками на понятия медицинской базы знаний UMLS. 2. В 2022 году на основе данных корпуса NEREL было проведено соревнование RuNNE при Международной конференции по компьютерной лингвистике и интеллектуальным технологиям Диалог-2022. Соревнование RuNNE было посвящено задаче извлечения вложенных именованных сущностей. В рамках соревнования RuNNE участникам было предложено две постановки задачи. Первая постановка задачи является стандартной: обучающие и тестовые данные относятся к одной предметной области. Существенных различий между частотами различных классов в обучающих и тестовых множествах не наблюдается. Вторая постановка задачи предполагает ограниченное число обучающих примеров (few-shot) задача для некоторых сущностей. В ходе экспериментов с моделями извлечения сущностей и отношений на размеченных данных NEREL было выявлено, что для качественной работы с вложенными именованными сущностями требуется применение специализированных моделей. Было показано, что лучшие результаты в извлечении вложенных именованных сущностей достигаются моделью MRC (Machine Reading Comprehension), которая преобразует задачу выделения именованных сущностей в задачу ответа на вопросы, где вопросом является описание типа сущности, которую необходимо найти в предложении. В 2022 году были проведены исследования для нахождения лучших типов запросов в модели MRC на данных обеих созданных коллекций: NEREL и NEREL-BIO, а также в задаче переноса обученной модели с данных NEREL на NEREL-BIO и задаче с малым количеством примеров (few-shot) задаче. Лучшим вариантом вопроса про конкретный тип сущности по совокупности задач оказалась так называемая полная лексическая подсказка, которая задает в качестве вопроса предложение из обучающих данных с маркированием всех вхождений целевого типа сущности. 3. Выполнено исследование вклада разных вопросов (подсказок) в модели MRC, которая трактует извлечение именованных сущностей как ответы на вопросы. На общей задаче лучшие результаты были получены (макро F-мера) на основе многоподсказочного подхода, комбинирующего несколько типов подсказок, - 75%. В few-shot задаче было получен лучший результат 63.88 с помощью полного лексического подхода, который состоит в подаче в качестве вопроса предложения из обучающей выборки с маркированием всех внешних сущностей заданного типа. Этот результат на 2.8 процентных пункта выше результата на основе толкований, подсказок, которые были лучшими в исходной статьей про модель MRC. 4. Были проанализированы входные форматы современных моделей извлечения отношений с точки зрения возможности работы с вложенными и пересекающимися сущностями и отношениями. В частности, было выявлено, что не могут использоваться модели типа SpanBERT, которые основаны на маскировании сущностей для выявления отношений. При анализе входного формата применения пакета для извлечения отношений OpenNRE было выявлено излишнее дублирование вложенных сущностей. Была проведена коррекция входного формата, после чего качество извлечения отношений внутри предложения на данных NEREL достигло 80.5% F-меры. 5. Проведен анализ разных режимов межъязыкового переноса без обучения на данных целевого языка на разных задачах и наборе типологически различных целевых языков, включая вариант межъязыкового выравнивания модели на небольшом объеме параллельных данных перед обучением на данных целевой задачи. Эксперименты включали анализ свойств векторных представлений различных вариантов моделей. Результаты позволяют сформулировать рекомендации для практического применения методов. 6. Выполнено сравнение подходов (на основе классификации токенов и без использования шаблонов) для извлечения сложных именованных сущностей нестандартной структуры. Исследован сквозной метод одновременного извлечения сущностей и отношений, основанный на авторегрессионной модели. Данный метод позволяет извлекать не только типизированные сущности, но и отношения между ними как на уровне предложений, так и на уровне документов. 7. Проведены эксперименты, направленные на улучшение качества связывания сущностей и медицинских концептов (entity linking, medical concept normalization). Для проведения исследования использовался созданный датасет NEREL-BIO с заданным разделением на обучающее и тестовое множество, а также с дополнительным разбиением по стратегиям stratified и zero-shot. Stratified стратегия заключается в разбиении исходной выборки таким образом, что каждый концепт, присутствующий в контрольной части, содержится и в обучающей. При этом выборка Stratified составлена из концептов без повторений. Zero-shot стратегия строится на противоположном подходе, концепты из контрольной выборки не должны пересекаться с концептами обучающей выборки. Наилучшие результаты на тестовом наборе показала модель SapBERT, обученная на корпусе NEREL-BIO. На stratified и zero-shot подвыборках лучше всего показала себя модель, обученная на комбинации корпусов. Дополнительно использовались: корпус MCN (корпус историй болезней на английском языке) и многоязычный корпуса XL-BEL.

 

Публикации

1. Артемова Е.Л., Змеев М., Лукашевич Н., Рожков И., Батура Т., Иванов В., Тутубалина Е. RuNNE-2022 Shared Task: Recognizing Nested Named Entities Компьютерная лингвистика и информационные технологии, стр. 33-41 (год публикации - 2022) https://doi.org/10.28995/2075-7182-2022-21-33-41

2. Лукашевич Н., Браславский П., Иванов В., Батура Т., Манандхар С., Шелманов А., Тутубалина Е Entity Linking over Nested Named Entities for Russian Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), pages 4458–4466 (год публикации - 2022)

3. Мифтахова А., Пугачев А., Скиба А., Артемова К., Батура Т., Браславский П., Иванов В. NamedEntityRangers at SemEval-2022 Task 11: Transformer-based Approaches for Multilingual Complex Named Entity Recognition. Proceedings of the 16th International Workshop on Semantic Evaluation (SemEval-2022), pages 1570 - 1575 (год публикации - 2022)

4. Никишина И., Тихомиров М., Логачева В., Назаров Ю.,Панченко А., Лукашевич Н. Taxonomy enrichment with text and graph vector representations Semantic Web journal, vol. 13, no. 3, pp. 441-475 (год публикации - 2022) https://doi.org/10.3233/SW-212955

5. Рожков И., Лукашевич Н. Machine-Reading Comprehension Model in RuNNE competition Компьютерная лингвистика и интеллектуальные технологии, с. 488-496 (год публикации - 2022) https://doi.org/10.28995/2075-7182-2022-21-488-496

6. Севгили О., Шелманов А., Архипов М., Панченко А., Биманн К. Neural entity linking: A survey of models based on deep learning Semantic Web journal, vol. 13, no. 3, pp. 527-570. (год публикации - 2022) https://doi.org/10.3233/SW-222986


Возможность практического использования результатов
Результаты проекта могут использоваться для автоматического пополнения графов знаний в разных предметных областях, что позволяет создавать специализированные вопросно-ответные системы на основе созданных графов (knowledge-based question answering), например для создания интеллектуальных чат-ботов.