КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-18-00525

НазваниеПонятность официального русского языка: юридическая и лингвистическая проблематика

РуководительБлинова Ольга Владимировна, Кандидат филологических наук

Организация финансирования, регион федеральное государственное бюджетное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет", г Санкт-Петербург

Период выполнения при поддержке РНФ 2022 г. - 2023 г. 

Конкурс Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по приоритетному направлению деятельности Российского научного фонда «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами» (35).

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-453 - Языкознание

Ключевые словаСовременный русский язык, официальный язык, информационное общество, электронное правительство, информационно-телекоммуникационные технологии, социолингвистика, восприятие языка, языковая сложность, юридическая лингвистика, лингвистический корпус

Код ГРНТИ16.21.33


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Настоящий проект нацелен на изучение языковой сложности и жанрового разнообразия русских правовых текстов. Под сложностью понимается объективная характеристика текста, измеримая с помощью специальных метрик. Разрабатывается автоматическая модель оценки сложности, подразумевающую использование более 130 метрик, обращающихся к лексике, семантике, синтаксису и связности текста, учитывающих частеречную сочетаемость, словообразовательные характеристики и общеязыковую частотность слов документа. Кроме того, учитываются гипертекстовые связи (что особенно важно при рассмотрении корпуса законов). Первым направлением работы станет превращение основанной на метриках модели в гибридную. Использование метрик в совокупности с эффективным кодированием языка (нейросетевой кодировкой) позволит оценивать сложность как по языковым параметрам, так и по скрытым признакам текстов. Предлагаемая в рамках проекта архитектура модели оценки сложности для русского языка применяется впервые. Вторым направлением станет создание жанрово-разнообразного и репрезентативного юридического корпуса размером не менее чем в 100 млн слов, снабжённого разметкой (предусмотрена лемматизация UDPipe, частеречная разметка UDPipe, дополнительная частеречная разметка и подробный морфологический анализ pymorphy2, синтаксическая разметка UDPipe). Наличие разнообразного и обширного корпуса позволит задуматься об анализе юридического жанра. Проект предполагает формирование списка жанрово-специфичных особенностей правовых текстов и создание автоматического жанрового классификатора, основанного на языковых метриках, но предполагающего и использование нейросетевого кодировщика. По красноречивому выражению из [Кожина и др., 2008, 329], «количество жанров официально-делового стиля многообразно, труднообозримо и требует систематизации». Работа в области классификации правовых текстов позволит сделать систематизацию жанров более конкретной и в большей степени основанной на языковых, чем на ситуативных характеристиках текстов. Далее, заявляемый проект позволит восполнить нехватку набора текстов официально-делового стиля с оценкой сложности (читабельности), полученной не с помощью метрик. Планируется подготовка текстовых фрагментов одного размера, которые будут предъявляться пользователям для эксплицитной оценки сложности и с замером времени чтения, в результате будет получен искомый текстовой набор с оценкой сложности. Наличие описанного текстового набора в свою очередь позволит адаптировать формулу читабельности Флеша-Кинкейда для юридических текстов. Формула будет содержать оптимальные коэффициенты (константы), подобранные с использованием стандартных алгоритмов регрессионного анализа. В дальнейшем формула позволит измерять сложность правовых текстов, не подвергшихся разметке. Новым как с технологической, так и с идеологической точки зрения компонентом заявляемого исследования станет наращение модели оценки сложности метриками оценки неопределённости (vagueness). Поиск неопределённых контекстов реализуем через идентификацию в тексте хеджей, градуируемых прилагательных (задаваемых лексическими списками и поиском форм компаратива), модификаторов степени проявления признака, нечетких кванторов, нечетких выражений со значением времени, референциально нечетких нарицательных существительных и др. Автоматическая оценка неопределённости особенно актуальна для юридических текстов (с их постулируемой идеологией ясности, точности, определённости, однозначности) и для русского языка реализуется впервые.

Ожидаемые результаты
Основными результатами проекта станут: 1. Гибридная модель автоматической оценки сложности русских правовых текстов и её компоненты, опубликованные на github.com. Модель подразумевает использование более 130 метрик сложности (разделённых на следующие категории: «базовые метрики», «формулы читабельности», «учёт слов разных частеречных классов», «n-граммы частеречных тегов», «частотность лемм», «словообразование», «отдельные граммемы», «лексические и семантические признаки, неоднословные выражения», «синтаксические признаки», «оценки связности»), а также нейросетевую кодировку в качестве отдельного параметра. 2. Репрезентативный корпус синхронных юридических текстов объёмом не менее 100 млн слов с разметкой UDPipe и pymorhy2, опубликованный на github.com. 3. Автоматический жанровый классификатор, обученный на обширном жанрово-разнообразном корпусе русских правовых текстов. 4. Текстовой набор (состоящий из правовых документов) с оценками читабельности, полученными не с помощью метрик (также опубликованный на github.com). 5. Адаптированная для русских правовых текстов формула читабельности Флеша-Кинкейда, содержащая константы, вычисленные на наборе данных юридических текстов с оценками читабельности. Формула позволит измерять читабельность правовых текстов, не подвергшихся разметке. 6. Автоматическая модель оценки понятности русских юридических текстов и её компоненты (в том числе — пользовательские словари), опубликованные на github.com. Под «оценкой понятности» имеется в виду оценка сложности, дополненная оценкой неопределённости (vagueness). 7. Веб-приложение, позволяющее пользователям применять созданные алгоритмы анализа сложности при оценке собственных текстов. Основные результаты проекта будут отражены в серии научных публикаций и на сайте plaindocuments.org. Гибридная модель оценки сложности русских правовых текстов предлагается впервые. Модель оценки понятности также является пионерской. Создание инструмента, способного измерять неопределённость, особенно актуально для анализа правового текста, поскольку он не должен допускать множественных интерпретаций. Общественная значимость заявляемого исследования обусловлена тем, что оно находится в русле общемирового «движения к простому языку» (Plain Language Movement). Проблематика простого языка особенно злободневна, если говорить о правовых текстах, задействованных во взаимоотношениях граждан и власти.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2022 году
Проект нацелен на изучение языковой сложности и жанрового разнообразия русских правовых текстов. 1. В рамках создания гибридной модели оценки сложности коллектив проекта произвёл сбор обучающих данных, создал структуру алгоритма, выбрал и протестировал модели регрессии и классификации. В качестве языковой модели выбран RuBERT на архитектуре Transformer. Обучающая выборка состоит из фрагментов текстов 1448 учебников (дошкольного уровня, 1 – 11 классов школы, университетского уровня). Собранные фрагменты учебников ранжированы по 13-ти уровням сложности. Выборка (всего около 10 млн токенов) содержит фрагменты учебников по юриспруденции, экономике, основам безопасности жизнедеятельности и др., а также литературе, истории и др. Учебники выбраны либо в силу тематического и языкового сходства с юридическими документами, либо как дающие общее представление о структуре языка. Модель RuBERT настраивалась для получения начального прогноза сложности. Тексты из обучающей выборки кодировались с использованием набора метрик. Затем первоначальные прогнозы сложности из языковой модели и кодировки признаков объединялись и передавались в окончательный модуль тестирования, после чего происходил выбор между различными моделями регрессии и классификации. Кодирование данных осуществлялось с помощью метрик, обращающихся к лексике, семантике, синтаксису и связности текста, учитывающих частеречную сочетаемость, словообразовательные характеристики и общеязыковую частотность слов документа, а также гипертекстовые связи (последнее особенно важно при анализе корпуса законов). Тестовые данные — корпусы русских юридических текстов объёмом около 8,4 млн токенов. Результаты показали, что во всех случаях введение прогнозов RuBERT обеспечило улучшение по сравнению с моделями, обученными только на лингвистических признаках. Модель классификации XGBoost, обученная на лингвистических признаках и предсказаниях языковой модели, показала наилучшие результаты почти по всем метрикам. При этом в наборе данных “CorDec” (решения Конституционного суда) все документы определены как имеющие наивысшую сложность («12»). В наборе данных “CorCodex” (нормативные документы) 95% документов получили максимальный индекс сложности. Данные корпуса локальных документов “CorRIDA” (информированные согласия, договоры и пр.) являются самыми разнообразными по сложности: 83% документов определены как документы самой высокой сложности, но в датасете встречаются даже тексты с индексами «0», «1», «2». Наблюдаемые различия между тремя наборами данных объяснены через вовлечение в рассуждение типов адресатов и типов авторов юридических текстов. Важно, что тестирование на юридических документах показало эффективность гибридного подхода в задаче идентификации сложных текстов. Однако гибридная модель не смогла уловить различия в сложности между текстами законов, кодексов и текстами решений Суда. Это значит, что необходим специализированный набор обучающих данных с экспертными оценками сложности, включающий разнообразные юридические тексты. Для учёта в модели сложности на основе пяти русских словарей устаревших слов создан пользовательский словарь архаизмов (10769 слов и выражений). В гибридную модель включены дополнительные метрики, среди которых метрика, оценивающая вхождения в тексты архаичных слов. Сформирован итоговый список метрик оценки сложности с описанием механизмов вычисления значений метрик. Модель оценки сложности опубликована на https://github.com/PlainDocument. 2. При работе над созданием юридического корпуса формализовано понятие «синхронности», изучены жанровые таксономии, созданы списки юридических жанров, определена архитектура корпуса, собран и размечен основной подкорпус (110 млн слов), частично собран устный подкорпус. На основании анализа лингвистической литературы получен первичный перечень жанров, включающий письменные и устные жанры законодательного, юрисдикционного, административного и дипломатического подстилей официально-делового стиля. Исходя из соображения, что в корпус должны войти юридические жанры (а многие жанры административного подстиля к ним не относятся), коллектив проекта предпринял попытку получить операциональное определение понятия «юридический документ». Для этого был выполнен поиск определения «юридического документа» в письменных источниках, проведена серия интервью с юристами. Эта работа продемонстрировала противоречия в определении понятия «юридический документ», после чего было решено провести эксперимент по ручной разметке обширного списка типов документов и выявить список «юридических документов» эмпирически, а не путём применения определения. Проведён эксперимент по параллельной разметке списка типов документов. Пять асессоров-юристов просматривали строки списка (591 позиция) и отвечали на вопрос «Это <конкретная позиция в списке> юридический документ или не юридический документ?». Общая оценка результатов параллельной разметки с помощью пакета R ‘irrCAC’ показала, что согласованность не превышает умеренную. Затем согласованность ответов оценивалась применительно к каждому типу документа в отдельности, при этом использовался простой процент согласия; таким образом получен список из 108 «типов документов», соотносимых с письменными юридическими жанрами. На следующем шаге для пополнения списков документов использовались обширные словари юридических терминов. Последним этапом формирования списка жанров стал анализ содержимого обширного «Общероссийского классификатора управленческой документации». Все полученные описанным образом списки юридических жанров были объединены. Итоговый список письменных жанров состоит из 612-ти строк. Итоговый список устных жанров, полученный в результате пересмотра списка из лингвистической литературы о стиле, состоит из 19-ти пунктов. Архитектура юридического корпуса, определённая на этапе 2022 г., подразумевает наличие (1) подкорпуса письменных юридических жанров (основного подкорпуса), (2) подкорпуса устных юридических жанров (устного подкорпуса), (3) подкорпуса академических жанров (статей и учебников по юриспруденции), (4) подкорпуса т. наз. устно-письменных жанров (блогов из социальной сети для юристов). Сформирован основной подкорпус (110 млн слов, 39158 документов формата *.xml). Тексты подкорпуса предобработаны, снабжены метаразметкой, структурной разметкой, размечены с помощью библиотеки Slovnet в формализме Universal Dependencies и с помощью pymorphy2. Выяснены возможности собирания текстов для устного подкорпуса (доступны некоторые записи судебных заседаний, интервью с юристами, а также стенограммы заседаний обеих палат Федерального Собрания). Собраны стенограммы заседаний Совета Федерации (524 документа) и Государственной Думы (1 946 документов). 3. В ходе создания жанрового классификатора принято принципиальное решение изучать жанры не rule-based, а corpus-driven методами. Оно связано с жанровым разнообразием исследуемых текстов и с недостаточной описанностью целого ряда юридических жанров. Таким образом, на отчётном этапе мы создали классификатор методами глубинного обучения. Использована обучающая выборка размером порядка 80 млн токенов, тексты в которой распределены по 25-ти классам (соответствующим условным жанрам). В качестве модели классификации снова выбрана языковая модель RuBERT. Модель дообучена для решения задачи определения жанров юридических документов. Разработанная модель успешно (с точностью более 96%) определила практически все классы, за исключением «определений Верховного Суда» и «постановления Правительства РФ». Кодировки, полученные языковой моделью, использованы для измерения расстояний между классами. Карта сходств кодировок различных классов показывает, что сходство некоторых категорий позволяет в дальнейшем объединять их в более широкие группы. Подготовлена серия научных статей, описывающих ход работы над проектом. Развитие проекта описано на https://www.plaindocument.org/. Основные результаты опубликованы на https://github.com/PlainDocument.

 

Публикации

1. Белов С.А. Параметры правовой коммуникации: адресаты правовых актов Вестник Санкт-Петербургского университета. Право, Вып. 4 (год публикации - 2022) https://doi.org/10.21638/spbu14.2022.401

2. Белов С.А., Ревазов М.А. Теория и практика толкования юридических документов судами с использованием словарей Право. Журнал Высшей школы экономики, № 1. С. 4–26 (год публикации - 2023) https://doi.org/10.17323/2072-8166.2023.1.4

3. Блинова О.В. Оценка сложности русских правовых текстов: архитектура модели Мир русского слова, №2. С. 4-13 (год публикации - 2022) https://doi.org/10.24412/1811-1629-2022-2-4-13

4. Блинова О.В., Тарасов Н.А. A hybrid model of complexity estimation: Evidence from Russian legal texts Frontiers in Artificial Intelligence, 5 1008530 (год публикации - 2022) https://doi.org/10.3389/frai.2022.1008530

5. Блинова О.В., Тарасов Н.А. Метрики сложности русских правовых текстов: отбор, использование, первичная оценка эффективности Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». Вып. 21, дополнительный том, Вып. 21, дополнительный том, С. 1017-1028 (год публикации - 2022) https://doi.org/10.28995/2075-7182-2022-21-1017-1028

6. Руднева Е.А. Выражение неуверенности в интервью Категории языка и мышления, Категории языка и мышления: аспекты современной интерпретации: сборник научных статей. С. 135-138 (год публикации - 2023)

7. Трощенкова Е.В., Руднева Е.А. Особенности и проблемы осмысления юридического документа в профессиональном юридическом дискурсе Вопросы когнитивной лингвистики, №1, С. 32-42 (год публикации - 2023) https://doi.org/10.20916/1812-3228-2023-1-32-42

8. - Гуманитарии Политеха приняли участие в семинаре «Цифровые технологии в лингвистике: современные подходы к исследованию сложности текста» ПОЛИТЕХ. Гуманитарный институт, Гуманитарии Политеха приняли участие в семинаре «Цифровые технологии в лингвистике: современные подходы к исследованию сложности текста». URL: (год публикации - )


Аннотация результатов, полученных в 2023 году
1. Создан датасет, состоящий из фрагментов юридических текстов с оценками сложности (точнее, перцептивной трудности), полученными экспериментально. 1.1. При разработке дизайна эксперимента учтён предшествующий опыт проведения исследований перцептивной трудности юридических текстов (ранее использовались методики пересказа текста, метод лакунарных текстов, метод шкалирования). С опорой на соображения простоты и скорости сбора данных (а также на соображение о единообразии полученных оценок и способов интерпретации данных) выбран метод шкалирования. 1.2. Разработаны методы создания репрезентативной выборки стимульных фрагментов юридических текстов. Основным критерием подбора текстов стало разнообразие по модусу, подстилю, жанру и показателям сложности, полученным с помощью автоматической модели. Определён размер стимульного фрагмента (от 50 до 70 слов). Создана выборка стимульных фрагментов (13146 стимулов). 1.3. Разработан дизайн эксперимента по оценке перцептивной трудности. Эксперимент проведён с помощью Telegram-бота (https://t.me/PonyatnostBot). Каждый испытуемый читал три фрагмента юридических текста и оценивал, насколько они трудны для восприятия по шкале от 1 до 8 (где 1 — очень легко, 8 — очень трудно). Предусмотрены процедуры валидации оценок (испытуемые выбирали два тематически релевантных для фрагмента слова, скорость оценки стимульного фрагмента замерялась). 1.4. В результате от 355 испытуемых получено 1064 текстовых фрагмента с оценками трудности. Среднее время прохождения опроса составило 2 минуты. Существенных различий в скорости оценивания фрагментов разных классов сложности не наблюдается. Испытуемые чаще всего ошибались в выборе тематически релевантных слов, оценивая самые сложные тексты, и почти не ошибались, оценивая тексты сложности класса «5», при этом доля ошибок в более простых текстах (классов «1», «2», «3», «4») сопоставима. Датасет опубликован на https://github.com/PlainDocument/telegram-survey. 2. С использованием стандартных алгоритмов линейного регрессионного анализа формула читабельности Флеша-Кинкейда адаптирована для определения класса сложности юридических текстов, при адаптации использован датасет с оценками сложности, полученными экспериментально. 3. Специализированная формула читабельности введена в состав метрик гибридной модели оценки сложности, модель опубликована на https://github.com/PlainDocument. 4. Сформированы конвенции дискурсивной транскрипции устных юридических жанров. В конвенциях предложено размечать незаполненные и заполненные паузы трёх степеней длительности, паралингвистические явления, темп речи, интонацию на границах реплик, неуверенность в расшифровке, нефонологическую долготу, обрывы слов, наложение речи. 5. Проведено тестирование двух моделей распознавания речи (MMS, Whisper). Выяснено, что Whisper обеспечивает лучшее качество расшифровки. Сформированы автоматические транскрипты 127-ми судебных заседаний и 7-ми интервью с юристами. 6. Выполнено двухэтапное ручное редактирование автоматических транскриптов 5-ти судебных заседаний и 5-ти интервью с юристами (общая длительность – 176 минут). 7. На материале транскриптов проведено исследование стратегий восстановления понимания и переключения кода (понимаемого как внутриязыковой перевод «со сложного языка на простой»). Например, показано, как юрист в ходе судебного заседания может выяснять истинные намерения собеседника, следить за реакцией собеседника на свою речь, регулируя степень ее официальности, проверять понимание, осуществлять подбадривание собеседника-неспециалиста или за него переформулировать сказанное в терминах специального языка. На материале интервью исследована профессиональная идентичность юриста. 8. Сформирован устный подкорпус синхронного корпуса текстов юридического домена Corpus Juris, в него вошли: – стенограммы заседаний Совета Федерации (524 документов, 15 520 578 слов, 993 410 предложений) – стенограммы заседаний Государственной Думы (920 документов, 37 162 284 слов, 2 023 718 предложений) – расшифровки судебных заседаний (5 транскриптов, 14016 слов), – расшифровки интервью с юристами (5 транскриптов, 11063 слов). 9. Сформирован академический подкорпус Corpus Juris, в него включены научные статьи и монографии по различным отраслям права (199 источников, 9 867 759 слов, 2 61 423 предложений). 10. Сформирован подкорпус блогов в составе Corpus Juris, в него включены публикации в профессиональной социальной сети для юристов zakon.ru (26 446 документов 31 028 597 слов, 1 119 464 предложений). 11. Corpus Juris (82 475 документов, 312 631 334 слов, 18 688 452 предложений) размечен и опубликован на https://plaindocument.spbu.ru/. 10. Проведено исследование обширного списка юридических жанров и сравнение правовых текстов различных подстилей и жанров по уровню сложности. Проанализирована текстовая коллекция, состоящая из 43 804 документов и включающая 118 768 028 слов. С помощью автоматической модели всем документам присвоены оценки сложности. Выяснено, что подавляющее большинство всех документов оценивается как максимально сложные. Так, гибридная модель присваивает класс сложности «12» 97,1% административных документов, 94,5% законодательных документов и 99,7% судебных документов национального права. По отношению ко всем документам международного права доля документов с уровнем сложности «12» составляет 94,1%. Набор законодательных текстов является самым разнообразным по сложности. В среднем самыми сложными документами в исследуемом наборе данных являются юрисдикционные (документы судов). При сравнении документов по жанрам интерпретированы значения синтаксических метрик. В целом сравнение жанровых групп показало, что решающее значение для оценки сложности может иметь не собственно жанр, а издавший документ государственный орган. 11. Создана модель оценки понятности, реализованная в виде двух модулей: модуля оценки сложности, созданной в проекте ранее, и модуля детекции неопределённости. 11.1. Разработана архитектура модуля детекции неопределённости (vagueness). Собраны и размечены обучающие данные (порядка 3100 предложений). Модуль работает как бинарный классификатор, способный предсказывать, содержит ли предъявляемый текстовой фрагмент неопределённость. Выполнено тестирование модуля, точность составила 85%. 11.2. Модель оценки понятности с модулями оценки сложности, неопределённости и пользовательскими словарями опубликована на https://github.com/PlainDocument. Разработано веб-приложение, позволяющее пользователям применять созданные алгоритмы анализа сложности и неопределённости при оценке собственных текстов. Основные результаты этапа опубликованы на https://plaindocument.spbu.ru/, на https://github.com/PlainDocument и представлены в серии научных статей.

 

Публикации

1. Белов С.А. Параметры правовой коммуникации: адресанты правовых актов Вестник Санкт-Петербургского университета. Право [Vestnik Sankt-Peterburgskogo Universiteta. Pravo], - (год публикации - 2023) https://doi.org/10.21638

2. Блинова О.В. “Plain and Natural” Versus “Accurate and Unambiguous”: Pronominal Intrasentential Anaphora in Russian Legislative Texts Eismont, P., Khokhlova, M., Koryshev, M., Riekhakaynen, E. (eds) Literature, Language and Computing. Springer, Singapore., P. 31–41 (год публикации - 2023) https://doi.org/10.1007/978-981-99-3604-5_3

3. Блинова О.В. «Трудность» и «сложность» в русских ортологических словарях и в лингвистической терминологии Верхневолжский филологический вестник [Verhnevolzhski philological bulletin], № 3 (34). С. 108-123 (год публикации - 2023) https://doi.org/10.20323/2499_9679_2023_3_34_108

4. Блинова О.В., Тарасов Н.А. Language Complexity across Sub-styles and Genres in Legal Russian Научный результат. Вопросы теоретической и прикладной лингвистики [Research Result. Theoretical and Applied Linguistics], 9(2), P. 73-96 (год публикации - 2023) https://doi.org/10.18413/2313-8912-2023-9-2-0-5

5. Малышева Д.М. Лексические функции “MAGN”, “ANTIMAGN” в современных русских правовых текстах: корпусное исследование Раднаева, Л. Д. (ред.). Анализ речи: теоретические и прикладные аспекты: сборник научных статей. Улан-Удэ: Издательство Бурятского государственного университета, С. 72-84 (год публикации - 2023) https://doi.org/10.18101/978-5-9793-1839-4-2023-1-172

6. Руднева Е.А., Трощенкова Е.В. Проблема понятности юридических документов в контексте профессиональной идентичности Вестник Томского государственного университета [Vestnik Tomskogo gosudarstvennogo universiteta – Tomsk State University Journal]., № 489. С. 25–35 (год публикации - 2023) https://doi.org/10.17223/15617793/489/3

7. Руднева Е.А., Трощенкова Е.В. Смена кода и достижение понимания на судебных заседаниях Антропологический форум [Forum for Anthropology and Culture], - (год публикации - 2024)

8. Блинова О., Богданова-Бегларян Н., Попова Т., Шерстинова Т. Sociolinguistics in Russia Ball M.J., Mesthrie R., & Meluzzi C. (Eds.). The Routledge Handbook of Sociolinguistics Around the World (2nd ed.). Routledge, Chapter 52. P. 613-630 (год публикации - 2023) https://doi.org/10.4324/9781003198345-58

9. Блинова О.В. "Сложность" и "трудность" в лингвистической терминологии и словарях LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой, 14–21 марта 2023 года, Санкт-Петербург: Cборник тезисов, С. 589-590 (год публикации - 2023)

10. Руднева Е.А., Трощенкова Е.В. Влияние профессиональных стереотипов на понятность юридического текста LI Международная научная филологическая конференция имени Людмилы Алексеевны Вербицкой, 14–21 марта 2023 года, Санкт-Петербург: Cборник тезисов, С. 702-703 (год публикации - 2023)

11. Трощенкова Е.В., Руднева Е.А. Метаязыковые комментарии о юридических текстах Вокруг текста: пара-, мета- и прочие маргиналии. Сборник материалов конференции. 19–21 октября 2023 / Отв. ред. А. К. Касаткина, М. Л. Сергеев. СПб.: ИЛИ РАН., С. 28-29 (год публикации - 2023) https://doi.org/10.30842/97856047999322023


Возможность практического использования результатов
1. Модель оценки сложности может быть использована при подготовке и редактировании любых документов, так или иначе задействованных во взаимоотношениях граждан и власти (от правил поведения в транспорте до постановления суда). Пишущий может использовать результаты работы модели для оценки качества текста и определения параметров редактирования. 2. Модель детекции неопределённости необходима прежде всего для подготовки нормативных (законодательных) текстов, неопределённость положений которых может оказывать самое серьёзное влияние на правоприменительную практику. 3. Области применения собранного набора данных (Corpus Juris) обширны и в качестве исследовательского материала, и в качестве данных для машинного обучения (для примера упомянем только разработку моделей упрощения юридических текстов или дообучение моделей распознавания на материале транскриптов судебных заседаний).