КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 16-18-10422

НазваниеРеференциальные аспекты компьютерной семантики

РуководительБогуславский Игорь Михайлович, Доктор филологических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, г Москва

Период выполнения при поддержке РНФ 2019 г. - 2020 г. 

Конкурс Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по приоритетному направлению деятельности Российского научного фонда «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-453 - Языкознание

Ключевые словакомпьютерная лингвистика, действующая модель языка, референция, кореферентность, анафора, глубокий семантический анализ текста, лингвистическая онтология, интеллектуальный анализ данных, вопросно-ответная система

Код ГРНТИ16.31.21


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Настоящий проект мыслится как продолжение и естественное развитие предыдущего проекта РНФ № 16-18-10422, который в свою очередь представляет собой составную часть обширной программы работ, направленной на создание системы глубокого понимания текстов на естественном языке. Актуальность решения этой проблемы не подлежит сомнению, поскольку многие задачи обработки естественного языка, такие как ответы на вопросы, автоматическое реферирование, извлечение информации, создание роботов, владеющих естественным языком, машинное чтение и др. получат новый импульс, если будет доступно более глубокое понимание текста. Задача моделирования понимания, или семантического анализа текстов, понимается как разработка компьютерной системы, которая способна, получив текст на естественном языке, построить его семантическое представление – формальный объект, представляющий смысл исходного текста эксплицитным образом и над которым компьютер может производить логические операции. Наиболее существенными чертами, отличающими данный проект от большинства других разработок, являются следующие: 1) Семантический анализатор SemETAP использует не только знания о языке, на котором написан текст, но и знания о том фрагменте окружающего мира, который связан с этим текстом. Первый вид знаний воплощен в словарях и грамматиках, а второй – в онтологии, базе индивидов и массиве аксиом. 2) Как слова естественного языка, так и концепты онтологии во многих случаях снабжаются эксплицитными разложениями для целей логического вывода. Мы исходим из того, что глубина понимания тем больше, чем большее количество умозаключений можно сделать из текста. Детальное описание семантики слов и концептов позволяет делать дополнительные умозаключения и тем самым добиться более глубокого понимания. 3) Семантическое разложение делается в терминах онтологических элементов (концептов, индивидов и отношений). Таким образом, онтология выступает не только в качестве структурированного хранилища знаний о мире, но и в качестве метаязыка семантического описания. 4) Семантический анализ выходит за рамки предложения. Это помогает находить антецеденты анафорических местоимений, которые нередко располагаются в одном из предшествующих предложений. 5) Различаются два уровня семантических структур. Базовая семантическая структура (БСемС) представляет непосредственное значение предложения с помощью онтологических элементов, а Расширенная семантическая структура (РСемС) дополняет ее серией возможных умозаключений. 6) Различается два типа умозаключений: логический вывод (“убили” ==> “умер”) и правдоподобные ожидания (“заболел” ==> “выздоровел”). 7) SemETAP представляет собой особый модуль многофункционального лингвистического процессора ETAP-4 и использует значительную часть лингвистических ресурсов этого процессора, разработанных нами для других опций. В частности, семантические структуры строятся на базе детальных синтаксических структур, полученных с помощью парсера ETAP-4, который по своим показателям находится на уровне лучших парсеров зависимостей. 8) SemETAP разработан для русского языка, а не для английского, как большинство других семантических анализаторов. Модель углубленного понимания текста включает в себя следующие модули: 1) морфосинтаксический анализатор текста, который устанавливает синтаксическую структуру каждого предложения текста, 2) онтология, представляющая собой формальную модель фрагмента действительности, 3) семантический словарь, который содержит формализованные описания значений слов, сопряженные с онтологией, 4) система правил онто-семантического анализа, опирающаяся на модули 1)-3), 5) логические аксиомы, формализующие умозаключения на основе здравого смысла, 6) механизм логического вывода, с помощью которого можно извлекать из текста имплицитный смысл на основе семантической структуры предложения, онтологии и аксиом здравого смысла. Модули 1), 2), и частично 3) и 4) были реализованы нами в ходе предыдущих проектов, поддержанных РФФИ и РГНФ. В проекте РНФ № 16-18-10422 мы продвинулись в направлениях 3)-6). В настоящем проекте будет продолжены эти линии исследований. Запланированные работы по большей части связаны с проблемой референции. Будут осуществлены следующие исследования и разработки: 1. В продолжение работы по онто-семантическому описанию области ментальных концептов, проводившейся в рамках Проекта 2016, будут разработаны онто-семантические описания одной или двух новых тематических областей. Они будут протестированы с помощью теста Winograd Schema Challenge, который позволяет проверить, в какой степени полученное описание моделирует “обыденные знания человека”, или здравый смысл (common sense knowledge). Эта проверка состоит в том, что анализатору предъявляются пары предложений, в которых требуется установить антецеденты анафорических местоимений. Выбор правильного антецедента в этих парах с необходимостью требует учета “обыденных знаний”, которыми владеет любой носитель языка, но которые очень трудно формализовать. 2. Разработанная нами ранее вопросно-ответная система, основанная на семантическом анализе и рассчитанная в первую очередь на ответы на вопросы по футбольным репортажам, будет расширена в трех отношениях: 1) будет значительно увеличен спектр семантических типов вопросов, на которые система будет давать ответы; 2) для адекватного представления полученного ответа на вопрос будет разработан способ генерации минимального, но достаточного для смыслоразличения референтного выражения на семантическом языке Etalog, 3) будет построен модуль синтеза естественно-языкового ответа по семантической структуре на Etalog. 3. Будет разработана версия семантического анализатора, обрабатывающая тексты на английском языке (SemETAP-En). 4. Будет разработана новая версия алгоритма поиска антецедентов анафорических местоимений, включающая самый сложный и мало изученный класс анафоры – анафору с расщепленным антецедентом. Кроме этого будут охвачены основные случаи неместоименной кореферентности. Алгоритм будет опираться на синтаксическую, семантическую и онтологическую информацию. 5. Будет разработана онто-семантическая модель времени и установлено соответствие между этой моделью и русским языком. С помощью этой модели все события текста получат абсолютную или относительную темпоральную координату, что позволит достичь более глубокого понимания текста. 6. Онто-семантическая интерпретация текста будет расширена за счет подключения ряда лексических функций теории “Смысл – Текст” и их русских коррелятов. В первую очередь это коснется лексических функций реализации (Real, Fact, Labreal) и адвербиальных дериватов. 7. Будет разработана новая версия языка для записи правил логического вывода Etalog, включающая кванторы и отрицание. 8. Будут разработаны методы для полуавтоматического извлечения онто-семантической информации из текстов и других ресурсов.

Ожидаемые результаты
По завершении проекта ожидаются следующие результаты: 1. Будет запущена новая версия вопросно-ответной системы с расширенной функциональностью. 2. Будет разработана новая версия алгоритма поиска антецедентов анафорических местоимений, включающая поиск расщепленных антецедентов и ряд явлений неместоименной кореферентности. 3. Будет разработана версия семантического анализатора, обрабатывающая тексты на английском языке (SemETAP-En). 4. Будет разработан новый метод полуавтоматического извлечения онтосемантической информации из текстов. 5. Будет разработана онто-семантическая модель времени. 6. В онто-семантический анализ будут включены лексические функции реализации и адвербиальные дериваты. 7. Будет разработана новая версия языка для записи правил логического вывода Etalog, включающая кванторы и отрицание. 8. Будут разработаны новые версии семантического словаря, онтологии и базы индивидов, содержащие знания, позволяющие значительно повысить качество и глубину онто-семантического анализа. Значимость онто-семантического анализатора определяется, в первую очередь, тем, что он развивает модель понимания текстов в направлении синтеза лингвистических и экстралингвистических знаний, выявления имплицитной информации и извлечения из текста следствий с помощью умозаключений на основе здравого смысла. Однако помимо этого у этой работы есть и практическое измерение. Он может быть использован в ряде приложений, требующих семантической обработки естественного языка, таких, как интеллектуальный поиск информации, автоматический ответ на вопросы, машинное понимание текстов (machine reading), анализ аргументации, автоматическое реферирование, построение виртуальных агентов и ряд других. В частности, существуют публикации, в которых обсуждается перспектива построения виртуального агента (робота), способного вести осмысленный диалог, опирающийся на здравый смысл. Такой робот может иметь разнообразные применения, в том числе в социальной сфере. Так, социальные службы США уже проявляют активный интерес к работам в области виртуальных агентов, которые могли бы вести диалоги с пожилыми одинокими пациентами и скрашивать их одиночество. Разумеется, это актуально и для нашей страны. Подобные модели еще не разработаны ни для одного естественного языка, хотя работы в этом направлении ведутся.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
В отчетном году выполнены следующие работы: Тема 1. Составлен словник русских лексем, относящихся к лексике первого ряда и характеризующихся широкой употребительностью. Для значительной части этих слов (около 2000 лексем) разработаны семантические описания. Параллельно формировался список семантических единиц – концептов, использовавшихся для описания слов. Многие концепты, в свою очередь, снабжались семантическими описаниями в терминах других концептов. Было описано 182 новых концепта (в специальном формате SemRule). Словник составлялся таким образом, чтобы в него вошли наиболее употребительные слова, относящиеся к разным частям речи (существительные, глаголы, прилагательные, наречия, предлоги и т.д.), являющиеся репрезентативными для различных семантических классов: физические предметы (природного происхождения и артефакты: яблоко, дверь, очки), профессии (доктор, судья) и родственные отношения людей (брат, сестра, мать, отец), физические действия (бежать, бродить, останавливать, открывать), абстрактные действия (помогать, защищать, воздействие), ментальные действия (забывать, думать, соглашаться, знать), эмоциональные чувства и состояния (бояться, раздражение, удивление, сочувствовать), постоянные и временные свойства и состояния (горячий, быстрый, сонный). Описание конкретного концепта в SemRule существенным образом зависит от онтологического класса, к которому он принадлежит. Так, обычно при описании физических предметов указывается их основные параметры: размер, форма, материал из которого они сделаны, частью чего они являются и из каких частей состоят. Существенным элементом их описания является также их функция (если таковая имеется). Например, функция ножа – ‘резанье’ (Knife hasFunction Cutting), а функция еды – ‘поедание’ (Food hasFunction Eating). Чтобы между описываемым предметом и его функцией установились правильные связи, одновременно с указанием функции предмета уточняется и его роль по отношению к ней. Так, нож является инструментом ‘резанья’ (Knife isInstrumentOf Cutting), а еда является объектом ‘поедания’ (Food isObjectOf Eating). По-другому выглядят описания действий. Для них очень важными являются оценочные модальности (EvalModality), причины (hasCause), предварительные условия реализации (hasPrecondition), результаты реализации (hasFollowingEvent) и возможные последствия (hasPossibleFollowingEvent). Тема 2. Разработана новая версия вопросно-ответной системы, обрабатывающая широкий спектр конструкций. Предыдущая версия была рассчитана в первую очередь на вопросы к футбольным репортажам и имела весьма ограниченную функциональность. Наш подход отличается от большинства существующих вопросно-ответных систем тремя принципиальными обстоятельствами: (а) Ответ на вопрос ищется не в тексте, а в его семантическом представлении, воплощенном в виде Расширенной Семантической Структуры. (б) В качестве ответа может выступать не только та информация, которая выражена в тексте эксплицитно, но и та, которая содержится в нем имплицитно и выводится из него специальными правилами вывода. (в) Имплицитная информация выводится с разной степенью надежности. Поэтому ответ снабжается показателем надежности (эпистемической модальностью). Языковые явления, на которые распространяется вопросно-ответная система, охватывают, в частности, конструкции с причастными и деепричастными оборотами, пассивным залогом, условные предложения, в том числе контрфактивные, изъяснительные, локативные, целевые и временные конструкции, лексико-синтаксические дериваты. Важное место занимают вопросы, апеллирующие к имплицитным компонентам значения разных концептов, которые становятся доступными благодаря правилам вывода. Для вывода имплицитной информации используются умозаключения двух видов – твердые следствия и правдоподобные ожидания. В зависимости от того, используются ли правдоподобные ожидания при выводе ответа, он имеет две степени эпистемической модальности. Максимальная степень соответствует утверждаемому факту, а средняя приписывается ситуации, которая, возможно, имеет место. Тема 3. Построен прототип семантического анализатора для английского языка (SemETAP-en) на той же платформе и на основе тех же принципов, на которых разработан анализатор для русского языка SemETAP-ru. Это, в первую очередь, многоуровневая архитектура, предполагающая последовательный переход с уровня текста на морфологический, синтаксический и семантический уровни. Два последних уровня в свою очередь делятся на два подуровня каждый. Синтаксический уровень представлен синтаксической и нормализованной синтаксической структурой, а семантический уровень – базовой и расширенной семантической структурой. Базовая семантическая структура задает непосредственное значение предложения, а расширенная семантическая структура дополняет ее всеми возможными выводами, которые делаются на основе массива правил вывода. Вторая характерная черта анализаторов SemETAP состоит в использовании богатых статических источников знаний – комбинаторных словарей и онтологии. При построении SemETAP-en оба эти ресурса не должны разрабатываться с нуля. Онтология не зависит от языка и является общей для всех языков. Комбинаторный словарь английского языка был разработан в ходе предшествующих проектов и содержит в настоящее время свыше 85 тыс. входов. Кроме того, пред-семантические этапы обработки предложения – морфологический и синтаксический анализаторы – также могут быть непосредственно заимствованы из существующей опции системы ЭТАП-4 – англо-русского автоматического перевода. Таким образом, создание английской версии семантического анализатора – гораздо менее масштабное предприятие, чем разработка такого же анализатора с нуля. Главные задачи, которые приходится тут решать, - это обогащение английского комбинаторного словаря связями с онтологией и разработка интерфейса между английскими нормализованными структурами и базовыми семантическими структурами. Тема 4. В рамках более широкой темы моделирования анафорических отношений разработаны правила обнаружения расщепленных антецедентов анафорических местоимений. Типичный пример таких антецедентов можно видеть во фразе «Петя и Маша (Петя с Машей) мечтают о том, как они поедут к морю». Здесь антецедентом анафорического местоимения «они» являются слова «Петя» и «Маша». Правила обслуживают все основные анафорические местоимения, способные иметь расщепленные антецеденты – "они", "те", "себя", "свой", "друг друга". Тема 5. Начата разработка модели времени для русского языка на основе формальной системы Дж. Аллена и Дж. Фергусона. Ее задачей является представление темпоральных характеристик всех событий, упоминаемых в тексте, и соотношения этих характеристик (когда произошло событие, что ему предшествовало, что за ним следовало, с каким событием оно совпадает или пересекается по времени, сколько оно длилось, с какой регулярностью оно происходит и т.п.). Основным элементом модели является временной интервал (TimeInterval) - непрерывный промежуток времени, имеющий начало и конец. Временные интервалы могут по-разному соотноситься друг с другом. Эти соотношения выражаются с помощью временных отношений. Элементарным временным отношением является отношение непосредственного предшествования (meetsTemporally). В нашей модели для описания времени используется 58 классов, 2 индивида и 30 бинарных отношений, служащих для связи индивидов и для присвоения им уникальных характеристик (таких, как номер дня в месяце). Кроме того, модель предусматривает временную константу - время речи (обозначается SpeechTimePosition). К настоящему моменту разработаны представления для следующих типов обстоятельств времени: а) дейктические обозначения времени - сегодня, вчера, три дня назад, в прошлом/будущем году; б) календарные даты - 17 апреля 2010 года. Они представляются как последовательность вложенных друг в друга интервалов: день под номером 17, включенный в месяц, называемый апрелем, который, в свою очередь, включен в год под номером 2010. в) выражения, которые характеризуют положение события во времени относительно положения другого события: перед обедом; ушел, но вскоре вернулся. Они играют ключевую роль в построении связных текстов. г) представления для начинательного и результативного значений форм совершенного вида. Для этих значений используются единообразные решения: в дополнение к семантическому компоненту, выражающему основное глагольное значение, при порождении семантической структуры создается компонент со смыслом 'начинаться' (Begin) или 'продуктивно завершаться' (Complete). Тема 6. В рамках задачи расширения выразительных возможностей языка Эталог, на котором мы моделируем умозаключения, основанные на здравом смысле (common sense reasoning), были рассмотрены способы введения в язык квантора общности и логического отрицания. Предложено решение, позволяющее в ряде конструкций обеспечить логический вывод для выражений под квантором всеобщности. В язык Эталог введена возможность создавать правила вида «если – то», в которых в левой части подразумевается квантор всеобщности. Предложение «Все мальчики пришли» можно представить в виде правила «Если x – мальчик, то x пришёл», которое верно для любого x. При появлении факта «Вася – мальчик», это правило применится к «Васе» и выведет факт-следствие «Вася пришёл». В рамках темы 7, касающейся полуавтоматического извлечения онто-семантической информации из текстов и других ресурсов, были исследованы некоторые из существующих подходов к извлечению из текстов, например, отношения «часть – целое», «гипероним – гипоним» и др. К сожалению, большинство из них позволяют добывать лишь довольно поверхностные знания, которые недостаточны для глубокого семантического анализа. Качество получаемых данных также не особенно высоко. Параллельно с этим была пополнена база данных индивидов по теме «Футбол» новыми данными из DBpedia – добавлены связи «игрок – страна» и «команда – город».

 

Публикации

1. Августинова Т., Иомдин Л.Л. Towards a Typology of Microsyntactic Constructions Proceedings International Conference on Computational and Corpus-Based Phraseology - Europhras 2019, Vol. 11755. Pp. 15-30. (год публикации - 2019)

2. Богуславский И.М. Семантический анализ и лексические функции реализации SCANDO-SLAVICA, Vol. 65. Issue 1. Pp. 26-41 (год публикации - 2019)

3. Богуславский И.М., Иомдин Л.Л. Corpus-supported Semantic Studies: Part/Whole Expressions in Russian Jazykovedný Časopis, Вып. 70(2). С. 254-266 (год публикации - 2019) https://doi.org/10.2478/jazcas-2019-0056

4. Богуславский И.М., Фролова Т.И., Иомдин Л.Л., Лазурский А.В., Рыгаев И.П., Тимошенко С.П. Knowledge-based approach to Winograd Schema Challenge Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог», Вып. 18(25). С. 86-103. (год публикации - 2019)

5. Иншакова Е.С. An anaphora resolution system for Russian based on ETAP-4 linguistic processor Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог», Вып. 18(25). С. 239-251. (год публикации - 2019)

6. Мовсесян А.А. An Attention-based Approach to Automatic Gapping Resolution for Russian Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог», Вып. 18(25). С. 462-473. (год публикации - 2019)


Аннотация результатов, полученных в 2020 году
Тема 1. Разработка онто-семантических описаний русских лексических единиц и концептов онтологии. Семантический анализатор SemETAP включает в себя следующие онто-семантические ресурсы: 1) онтология OntoETAP вместе с Базой индивидов, 2) комбинаторный словарь русского языка, в котором устанавливается связь между русскими словами и концептами и истолковываются некоторые русские слова, 3) словарь концептов, в который помещаются толкования концептов, записанные в формализме Foret, 4) массив правил вывода, записанных в формализме Etalog. В течение 2020 года массив онто-семантических ресурсов был значительно расширен. Появилось 104 новых концепта онтологии, 314 новых описаний концептов, 78 новых семантических правил для построения Базовой семантической структуры, около 2000 словарных статей комбинаторного словаря получили отсылки к онтологии. Особое внимание было уделено тестированию разработанных ресурсов. Наиболее объективным способом тестирования служит их проверка с помощью какой-либо внешней коллекции текстов и задачи, требующей понимания текстов этой коллекции. Для этой цели мы использовали недавно опубликованный набор под названием Triangle Choice of Plausible Alternatives. Он содержит 100 заданий с многовариантными ответами, требующих интерпретации социальных сценариев. Каждое задание содержит утверждение и две связанных с ним альтернативы. Задача состоит в идентификации более правдоподобной альтернативы. Выполнение таких заданий требует обращения к фоновым знаниям, основанным на логике здравого смысла, и умозаключений на основе этих знаний. Для работы с этими заданиями мы использовали семантический анализатор SemETAP, разрабатываемый в рамках настоящего проекта. Результаты, которые были получены на всем массиве вопросов, вполне удовлетворительны: были получены правильные ответы на 80,5% вопросов. Эти результаты показывают, что семантический анализатор широкого профиля может успешно решать специфические проблемы, при условии, что он обладает знаниями хорошего качества. Тема 2. Расширение функциональности вопросно-ответной системы, основанной на SemETAP. Расширение функциональности вопросно-ответной системы шло в трех направлениях. 1) Был увеличен спектр семантических типов вопросов, на которые система должна давать ответы. 2) Для повышения адекватности представления ответа на вопрос, порожденного системой, был разработан способ генерации минимального, но достаточного для смыслоразличения референтного выражения на языке Эталог. 3) Построен модуль синтеза естественно-языкового ответа по семантической структуре на Эталоге. Тема 3. Разработка пилотной версии семантического анализатора для английского языка (SemETAP-En). Продолжалась работа над созданием пилотной версии семантического анализатора для английского языка (SemETAP-en), используя концепцию и архитектуру, разработанную для анализатора русского языка (SemETAP-ru). Эксперименты, проведенные в рамках SemETAP-en, показали, что основные методы, приемы и конкретные решения, функционирующие в системе семантического анализа русского языка, вполне приемлемы и для английского языка. Основной вид работ по данной теме заключался в проведении широкого эксперимента по порождению семантических структур для английских предложений, содержащих базовую лексику и представляющих базовые синтаксические структуры. Этот эксперимент включал: 1) пополнение словарных статей английского комбинаторного словаря семантическими зонами; 2) написание правил семантического анализа для английского языка: 3) отладку и отработку комплекса семантического анализа английского текста. Тема 4. Совершенствование алгоритма установления кореферентности В 2019 г. был разработан алгоритм поиска расщепленных антецедентов анафорических местоимений в ряде конструкций. Расщепленный антецедент – это несколько (обычно 2) именных групп, синтаксически не связанных между собой, к которым отсылает одно местоимение, например: «Лараi ищет ящик Пандоры, ейi помогает Терриj Шеридан, и вместе имi+j удается опередить Джонатана Рисса, а потом спасти мир» (им = Лара и Терри). В 2020 г. этот алгоритм был дополнен новыми конструкциями, в которых могут появляться расщепленные антецеденты. Также разработана серия правил, охватывающих основные случаи неместоименной кореферентности. Они опираются на синтаксическую, семантическую и онтологическую информацию. Эти правила разбиваются на три группы, устанавливающих попарные кореферентные связи между существительными – вершинами именных групп, которые соотносятся с одним и тем же объектом или ситуацией. Первая группа правил устанавливает кореферентные связи, в которых участвуют местоимения 1-го и 2-го лица. Во вторую группу правил входят правила, устанавливающее кореферентные связи влево от существительных одного из нескольких типов, а также между формами одной лексемы. Кроме кореферентных связей, эти правила маркируют конфигурации, в которых кореферентность исключена. Третья группа правил устанавливает или стирает кореферентные связи после получения базовой семантической структуры. Тема 5. Онто-семантическая модель времени. В 2020 году продолжалась разработка онто-семантической модели времени и установлено соответствие между этой моделью и русским языком. С помощью этой модели все события текста получают абсолютную или относительную темпоральную координату, что позволяет достичь более глубокого понимания текста. Модель состоит из четырех компонентов: а) онто-семантические описания темпоральных слов русского языка, б) онто-семантическое описание категории глагольного времени, в) темпоральные концепты и отношения онтологии, г) правила построения Базовых семантических структур для предложений с темпоральными элементами, д) вывод Расширенных семантических структур для предложений с темпоральными элементами. Разработаны формальные семантические представления для смысловых соотношений между членами глагольных видовых пар разных типов. Базовые семантические структуры интерпретируют темпоральные слова и конструкции в терминах нескольких концептов, таких как TimeAttribute, TimeMeasure, включающий RelativeTime, TimePosition, ReferenceTimePosition, SpeechTimePosition, TimeInterval и TimePoint и нек. др. В Расширенных семантических структурах все события получают дополнительную временную интерпретацию за счет импликативных отношений. Общее число темпоральных отношений - 25. Также устанавливаются все возможные соотношения между имеющимися временными интервалами и точками. В 2020 году набор правил, обеспечивающих отношения между временными интервалами и точками, достиг 279. Тема 6. Введение в семантический анализатор некоторых лексических функций теории «Смысл – Текст». Лексические функции (ЛФ) теории «Смысл – Текст» доказали свою пользу для разных лингвистических задач. Они позволяют описать комбинаторный потенциал слова в словаре, помогают различить лексическую и синтаксическую неоднозначность, обеспечивают идиоматичный перевод на другой язык выражений с несвободной сочетаемостью, могут служить основой для синонимического перифразирования и с успехом применяются при обучении языку. В семантическом анализаторе SemETAP реализовано два типа использования ЛФ. 1) Значение ЛФ трактуется как концепт онтологии, на основе которого можно делать логические выводы (inferences). Таким образом используются ЛФ семейства Real-Fact-Labreal. Пример логического вывода, построенного на таких ЛФ: «Иван упустил возможность выступить на конференции» ==> «Иван не выступил на конференции». 2) ЛФ соответствует глаголу поддержки или синтаксическому деривату. В таком случае она не порождает собственного концепта, а служит для идентификации аргументов предикатов, когда эти аргументы не присоединены к предикату непосредственно. Таковы ЛФ семейства Oper-Func-Labor и синтаксические дериваты класса S-i, A-i и Adv-i. Результаты по теме 7. Новая версия языка Эталог с поддержкой кванторов и отрицания. Для языка Эталог разработан новый резонер (также названный Эталог), который обладает способностью обрабатывать вопросы с квантором общности и отрицанием. Новый ризонер написан на C++ и содержит структуры данных для хранения семантического графа в виде набора троек вида «субъект–предикат–объект», методы по эффективному поиску подграфа (выполнения запроса с кванторами существования) и методы, реализующие алгоритм chase для логического вывода – пополнения семантической структуры на основе правил логического вывода (импликаций вида A –> B). Квантор всеобщности в Эталоге реализуется в виде импликаций. Например, «Все мальчики пришли» можно представить в виде импликации (правила) «Boy ?x –> Arrived ?x» (упрощённо). Для реализации полноценного логического отрицания используется тот факт, что отрицание эквивалентно импликации, у которой в заключении стоит «ложь», то есть ¬P ⇔ (P → False). Тема 8. Полуавтоматическое извлечение некоторых видов онто-семантической информации из текстов и других ресурсов. Продолжены работы, начатые в 2019 г., по построению онтологии среднего уровня на основе двух общедоступных ресурсов – известной онтологии верхнего уровня SUMO (Suggested Upper Merged Ontology) и словаря искусственного семантического языка UNL (Universal Networking Language). Первый из этих ресурсов содержит весьма общие концепты, многие из которых не имеют прямого эквивалента в естественных языках, а второй, напротив, включает в себя в значительной части очень дробные концепты, различия между которыми нерелевантны для многих задач. Метод реализован в виде программы, которая читает данные онтологии SUMO и словаря UNL и создает файл расширенной онтологии. Это позволяет повторять процесс с не только с новыми версиями исходных ресурсов, но и с другими базовыми онтологиями, если они имеют привязки к словарю UNL. Текущий результат его применения - расширенная онтология на основе SUMO в которой содержится 65443 класса, 7221 индивид. В исходной версии SUMO было 8452 класса и 4910 индивидов. Добавленные концепты среднего уровня имеют связи с лексикой русского языка в виде наборов близких по значению русских слов связанных с такими концептами.

 

Публикации

1. Богуславский И.М., Диконов В.Г., Фролова Т.И., Иомдин Л.Л., Лазурский А.В., Рыгаев И.П., Тимошенко С.П. Full-fledged semantic analysis as a tool for resolving Triangle-COPA social scenarios Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог», Вып. 19 (26). С. 91-103 (год публикации - 2020)

2. Иншакова Е.С., Сизов В.Г. An experimental rule-based parser for Russian employing the NLP resources of the ETAP system Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог», Вып. 19 (26). С. 387-399 (год публикации - 2020) https://doi.org/10.28995/2075-7182-2020-19-387-399


Возможность практического использования результатов
не указано