Построение облака лингвистических открытых связанных данных для языков народов России (модели, методы, приложение)

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 19-71-10056

НазваниеПостроение облака лингвистических открытых связанных данных для языков народов России (модели, методы, приложение)

Руководитель Ильвовский Дмитрий Алексеевич, Кандидат технических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики" , г Москва

Конкурс №41 - Конкурс 2019 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-514 - Технологии приобретения, представления, обработки и интеграции знаний

Ключевые слова Лингвистические открытые связанные данные, семантическая паутина, представление знаний, онтологии, лексические ресурсы, тезаурус, корпус, фреймнет, разметка семантических ролей

Код ГРНТИ20.23.25

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Целью проекта — создание фрагмента облака Лингвистических открытых связанных данных (Linguistic Linked Open Data, LLOD) для русского языка и других языков народов России. Представление лингвистических ресурсов, предназначенных для решения задач обработки текста на естественном языке, в облаке Лингвистических открытых связанных данных на основе открытых международных стандартов является ключевым научным направлением для работ в ряде областей искусственного интеллекта (компьютерная лингвистика и представление и обработка знаний). Данный подход имеет следующие преимущества: 1. Решение проблемы несовместимости моделей и интероперабельности. 2. Совместное использование нескольких лингвистических ресурсов для решения общей задачи. 3. Совместное использование лингвистических ресурсов вместе с нелингвистическими ресурсами из облака Открытых связанных данных (LOD). Возможность подобного рода совместного использования особенно важна в задачах обработки естественной языка и текстовой аналитики, решение которых требует не только знания о языке, но и фактическое знания о мире, а также связей между языковыми и внеязыковыми объектами. 4. Поддержка мощной инфраструктуры Semantic Web, включающей хранилища триплетов, системы логического вывода, онтологии и т.д. Необходимые лингвистические ресурсы для большинства крупных языков уже интегрированы в облако LLOD. Примерами таких ресурсов является тезаурус WordNet, английская и немецкая версии Викисловаря, FrameNet, VerbNet, англоязычный корпус BROWN, а также некоторые тезаурусы для узкоспециализированных областей (EuroVoc, AgroVoc, TheSoz, Library of Congress Subject Headings). Однако лингвистические ресурсы для русского языка и других языков народов России в облаке LLOD представлены лишь фрагментарно. В связи с этим является актуальной задача создания недостающих лингвистических ресурсов и интеграция имеющихся и вновь созданных ресурсов в облако LLOD. В рамках данного проекта планируется: 1. Интеграция в облако LLOD существующих лингвистических ресурсов для русского языка и языков народов России, таких как: открытый корпус русского языка OpenCorpora, национальный корпус татарского языка «Туган тел», национальный корпус башкирского языка, тезаурус русского языка и лингвистическая онтология РуТез, тезаурус русского языка RuWordNet, грамматические словари для русского и татарского языков, в т.ч. расширенный грамматический словарь Зализняка и Грамматический словарь татарского языка, базы данных татарских глаголов, и других. 2. Разработка новых недостающих лингвистических ресурсов: а) фреймовый ресурс типа FrameNet для русского языка («Русский FrameNet»), б) иерархия топиков, автоматически извлеченная из Википедии; и интеграция разработанных ресурсов в облако LLOD. 3. Связывание существующих и новых ресурсов друг с другом и с ранее опубликованными ресурсами на других языках. 4. Разработка инструментов разметки семантических ролей (SRL) и основанного на нем инструмента для извлечения событий, использующих разработанные лингвистические ресурсы. Для решения этих задач будут разработаны новые модели и методы, учитывающие специфику задействованных ресурсов и языков, но, в то же время, в максимально возможной степени сохраняющие совместимость с общепризнанными международными стандартами. Результаты исследований будут иметь важное значение для современных технологий искусственного интеллекта, таких как семантический поиск, извлечение информации из текста, машинный перевод, многоязычные вопросно-ответные системы и др.

ОТЧЁТНЫЕ МАТЕРИАЛЫ