КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 18-18-00436

НазваниеСложность текстов на русском языке

РуководительСоловьев Валерий Дмитриевич, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет", Республика Татарстан (Татарстан)

Период выполнения при поддержке РНФ

2018 г. - 2020 г.

Конкурс№28 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-454 - Текстология

Ключевые словаавтоматический анализатор, сложность текста, корпус, подкорпус, читабельность, синтаксическая простота, повествовательность, абстрактность, глубинная когезия, референциальная когезия.

Код ГРНТИ16.21.33

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Проект нацелен на создание автоматического анализатора сложности текстов на русском языке и будет продвигать идеологию «Простой язык». В рамках междисциплинарного подхода оценка сложности текста будет осуществляться на основе более 70 объективных количественных параметров текста, таких как средняя длина предложения, лексическое многообразие, частотность слова, абстрактность, повествовательность, синтаксическая простота, референциальная когезия, глубинная когезия и др., позволяющих ранжировать тексты в соответствии с когнитивными и лингвистическими способностями целевой аудитории в диапазоне «школьник 1 класса школы – выпускник магистерской программы». Выявление доли тех или иных параметров в текстах различной сложности будет осуществляться при помощи свободно распространяемых средств, а также с помощью программ, разработанных при участии исполнителей проекта, включая синтаксический анализатор проекта ЭТАП, созданный в лаборатории Ю.Д. Апресяна в ИППИ РАН. Для доказательства влияния отдельных лексических и синтаксических параметров текста на его сложность, а также при создании матриц значений отдельных метрик для текстов различного уровня сложности будут использованы корпусный метод и метод статистических оценок. Все данные, полученные экспериментальным путем, планируется обрабатывать с использованием программного обеспечения Statistica 8 и 10 и IBM SPSS Statistics, версия 21. Для стандартизации объемов пассивного словаря и уровней «читабельности», т. е. уровней сложности текстов, для 17 целевых аудиторий «школьник 1 класса школы – магистр-выпускник» будут применены различные экспериментальные методики, в том числе тест словарного запаса и констатирующий эксперимент. В качестве материала используются учебники из Федерального перечня (http://fpu.edu.ru/fpu/), а также тексты сайтов российских государственных органов, находящиеся в открытом доступе (например, http://economy.gov.ru/minec/about/structure/deposobeczone/2017010902). Востребованность ожидаемых результатов в науке и практике очевидна: в системе образования – при написании учебников и разработке КИМов, в различных производственных областях и сфере обслуживания – для сокращения времени на обработку документа, обеспечения лучшего восприятия текстов целевой аудиторией. Актуальность исследования определяется также возможностью создания предпосылок для формирования нового научного направления «Сложность текста». Исследование актуально и в части уточнения существующих представлений о зависимости сложности текста от спектра лингвистических параметров, а также способов ранжирования текстов по уровням сложности и корреляции параметров читабельности текстов и характеристик читателя (возраст, образование, объем словаря). Методика расчета сложности текстов, программный комплекс и база данных, включающая учебные тексты и официальные тексты министерств, будет выложена в открытом доступе в Интернете. Результаты будут опубликованы не менее чем в 14 статьях в изданиях, индексируемых в Web of Science и Scopus, преимущественно из 1-го и 2-го квартиля, а также доложены на ведущих международных научных конференциях.

Ожидаемые результаты
На первом этапе исследования будут созданы корпусы текстов, осуществлена разметка учебных текстов, выявлены параметры, влияющие на сложность текста. Основные результаты этого этапа: (1) Создание корпуса текстов на русском языке, включающего следующие подкорпусы: подкорпус учебных текстов, содержащий тексты учебников начальной, средней и старшей школы из Федерального перечня учебников, рекомендованных Минобрнауи РФ (1 млн. словоупотреблений); подкорпус рекламных текстов (1 млн. словоупотреблений); подкорпус договоров страховых компаний (1 млн. словоупотреблений); подкорпус веб-страниц производственных компаний и организаций сферы обслуживания (1 млн. словоупотреблений). (2) Лексическая и синтаксическая разметка текстов подкорпуса учебных текстов. (3) Разработка методики проведения экспериментов по установлению объемов пассивного лексического и грамматического словарей. (4) Верификация зависимости сложности учебного текста от следующих основных лингвистических параметров: среднее количество слогов в слове, слов, содержащих 3 и более слога, средняя длина предложения текста в словах; количество незнакомых слов в тексте; абстрактных слов,количество неповторяющихся слов; количество терминов в тексте и их для в тексте, процент существительных, прилагательных, глаголов в личной форме кратких прилагательных, местоимений, вводных слов, кратких причастий, причастий, деепричастий, инфинитивов, местоимений-предикативов, местоименных прилагательных, количественных числительных, порядковых числительных, наречий, сложных предложений, сложноподчиненных предложений, сложносочиненных предложений, Коэффициент Флеша-Кинкэйда. (5) Установление корреляции между метриками текста и стандартизированными уровнями «читабельности» начальной школы. (6) Публикация результатов в виде 4 статей. На втором этапе будет проведена верификация и валидация полученных формул сложности текстов при помощи апробированных в отечественной науке методов. (1) Лексическая и синтаксическая разметка ранее собранных подкорпусов текстов (кроме учебных). (2) Результаты экспериментов по установлению объемов пассивного словаря школьников и студентов. (3) Верификация зависимости сложности текста (учебного, делового, научного и рекламного дискурсов) от полного набора параметров. (4) Исследование полного набора параметров методами кластерного анализа, выявление наиболее значимых. (5) Публикация результатов в виде 4 статей, размещение всех материалов на Сайте проекта. На третьем этапе исследования будут получены следующее результаты: (1) Скорректированная модель сложности текста на основе результатов проведенных экспериментов.по установлению объемов пассивного словаря. (2) Валидированный автоматический анализатор сложности текста для текстов официально-делового, публицистического и научного стилей. (3) Автоматический анализатор сложности текста на русском языке в форме он-лайн сервиса. (4) Публикация результатов в виде 6 статей. (5) Отчет по проекту. Запланированные результаты превосходят мировой уровень. Ранее для русского языка столь масштабные и многоплановые исследования сложности текстов не проводились. Будет исследован ряд специфических параметров, характерных для русского языка (влияние флективного строя, свободного порядка слов и т.д.), не изучавшихся в мировой литературе. Впервые будут в мире будут применены нейронные сети с методом глубокого обучения.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2018 году
Проект посвящен изучению сложность текста на русском языке, которая понимается и изучается в двух взаимосвязанных смыслах: как лингвистическая характеристика текста, определяющего его доступность для разных категорий читателей; как мера когнитивных усилий читателя при восприятии текста. Формализация этих смыслов возможна, соответственно, путем следующих процедур: выделение параметров текста, влияющих на его сложность, и определение степени их влияния в виде коэффициентов в формулах читабельности; проведение психолингвистических экспериментов с разными группами читателей. Для выявления сложности текста на английском языке применяется ряд инструментов: хорошо известная формула сложности Флеша-Кинкейда, программные комплексы с развитыми возможностями, такие как Coh-Metrix,TAACO и др. Для русского языка ранее предложенные формулы сложности Мацковским М.С. и Оборневой И.В. не получили широкого признания, а методология их получения вызывает определенные сомнения. В связи этим основными целями первого года проекта были следующие :создание среды (корпусы, словари, методики и т.д.) для исследований сложности текстов; разработка и сопоставительный анализ различных вариантов формулы читабельности с различными параметрами на материале учебников для начальной и средней школы; проведение пилотных лингвистических исследований на построенных корпусах. Для достижения этой цели выполнены следующие предварительные работы: - созданы корпусы: учебников для начальной школы (1- 4 классы) , учебников по истории для 10-11 классов, текстов производственно-коммерческого характера с веб-страниц государственных организаций, производственных компаний и организаций сферы обслуживания - осуществлена морфологическая разметка текстов(со снятием омонимии) - созданы частотные словари лексических единиц, используемых в учебных текстах в диапазоне 1 класс - 4 класс - выполнена более глубокая разметка полученного корпуса учебников для 1-4 классов, включающая лексическую разметку двух типов. Первый тип – разметка с помощью лексических помет, предусмотренных в анализатореMyStem. Второй тип разметки включает отображение слов из текста на тезаурус русского языка RuWordNet. - для части корпуса выполнена синтаксическая разметка с помощью синтаксического анализатора системы ЭТАП-4, разработанной в ИППИ РАН. Проведено тестирование анализатора системы ЭТАП-4 на предмет точности выделения 15 отобранных для анализа синтаксических признаков. Отклонение от результатов эталонного анализа (на корпусе СинТагРус) составило около 3%. Предложенная нами ранее формула читабельности с двумя параметрами – средняя длина предложений (ASL) и средняя длина слов в слогах (ASW) – сравнена с формулами Оборневой И. В. и Мацковского М.С. на корпусе учебников по истории. Наилучшее приближение к сложности текста (номеру класса) дает наша формула, лишь немногим хуже результат формулы Мацковского и неудовлетворительный результат показывает формулаОборневой. Последнее может быть объяснено тем, что формула Оборневой разработана для текстов художественной литературы, которая состоит из более коротких предложений с более короткими словами по сравнению с учебными текстами. Формула же Мацковского создавалась на базе текстов СМИ, которые, судя по этим данным, близки по характеристикам к учебным текстам. Проанализировано влияние более 30 признаков текста: частотных, частеречных, синтаксических на сложность текста. Для них проведены расчеты встречаемости признаков в корпусе, корреляции между признаками и номером класса (уровнем сложности), значимости признаков. В наибольшей степени со сложностью коррелируют классические признаки ASW и ASL, а также среднее количество сочинительных цепочек и среднее число причастных оборотов. Эти же признаки оказались и наиболее информативными. Стандартными методами линейной регрессии получено несколько новых формул читабельности, в том числе, впервые построена формула сложности текста второго порядка. По методу наименьших квадратов получены оценки качества формул. В итоге, выделено несколько наиболее перспективных формул, тестирование которых будет продолжено на других корпусах. При этом, следует отметить, что параметры, не входящие в формулы, могут представлять интерес для различных исследований текстов, в связи с чем в дальнейшем планируется создание программного комплекса, рассчитывающего значения большого числа параметров для текстов пользователей. Рассматривался также подход к определению сложности текстов с применением алгоритмов машинного обучения. Для обеспечения большого набора текстов, требуемых для обучения, имеющиеся в нашем распоряжении учебники были разбитына фрагменты размером 500, 1000, 2000, 4000 слов. К ним были применены 7 наиболее часто используемых алгоритмов машинного обучения – Decision Tree classifier, Multi-layer Perceptron classifier, Random Forest classifier, k-Nearest Neighbors classifier, Support Vector classifier, SGD classifier, Gradient Boosting classifier. Обучение осуществлялось по стандартной методологии – на 90% случайно выбранных текстах с последующим тестированием на оставшихся 10%, расчетом F-меры точности классификации текстов по классам и усреднением результатов по итогам 10 расчетов с разным выбором обучающего и тестового множеств. Наилучший результат достигнут для алгоритма k-Nearest Neighbors classifier и фрагментов размером 4000 слов. Он равен 0,47. В то же время в работах по автоматической классификации тестов на знание русского языка как иностранного достигнут уровень F-меры =0,65. Предложено объяснение более низкой оценки в нашем исследовании на материале учебников, основанное на различиях в объемах словарного запаса у исследуемых категорий читателей. Однако, если классифицируемые тексты достаточно далеко отстоят друг от друга по степени сложности, например, учебники 5 и 8 классов, то они уже легко различаются алгоритмами машинного обучения. В наших экспериментах алгоритм k-Nearest Neighbors classifier различает их с точность 0,94. Таким образом, в более простых ситуациях классификации (которые могут оказаться полезными на практике при выборе подходящей учебной литературы) алгоритмы машинного обучения обеспечивают высокую точность. Обученные на учебниках алгоритмы классификации могут в дальнейшем быть применены для оценки сложность текстов иных типов, в том числе из собранного нами корпуса “производственных” текстов. Рассмотрено использование эмотивного лексикона в учебниках по обществознанию за 5-11 классы. Эмотивная лексика бралась по словарю RuSentiLex. При анализе употребления эмотивных терминов установлено три закономерности. Во-первых, чем старше класс, тем тексты учебников содержат меньше эмотивно окрашенных слов. Во-вторых, учебники по истории содержат заметно больше слов, выражающих отрицательные эмоции, по сравнению с учебниками по обществознанию. Данный результат требует дальнейших исследований и тщательного обдумывания. Это один из характерных примеров возможных применений наших исследований. В-третьих, существует заметная разница в балансе негативных и позитивных эмотивных терминов в линейке учебников А.Ф. Никитина и в линейке учебников Л.Н. Боголюбова. У Никитина негативных терминов на 20% больше, чем позитивных, в то время как у Боголюбова их примерно одинаковое количество. Изучены биграммы со словом “человек” в учебниках по обществознанию. Слово “человек” выбрано, как наиболее частотное содержательное слово в этих учебниках. Все биграммы разбиты на семантические классы: “сущность”, “событие”, “свойство”. Полученные результаты указывают на существенно различные подходы к описанию роли человека в обществе у разных авторов. В дальнейшем этот подход может быть использован, как один из инструментов для оценки учебников. Одним из конститутивных параметров сложности текста является повествовательность, учитываемая в программах Coh-metrix и T.E.R.A. Предложена авторская методика подсчета степени повествовательности текстов на русском языке на основе корреляции статичных и динамичных глаголов в текстах. Параметр повествовательность имеет более низкие показатели в публицистических текстах в сравнении с художественными текстами. Данные показатели обусловлены тем, что в исследуемых публицистических текстах зарегистрировано меньшее количество динамичных глаголов, средств номинации субъекта и хронотопа повествования. Среднее количество динамичных глаголов в публицистических текстах в 3.5 раз меньше, средств номинации субъекта повествования – в 2.3 раза меньше, а средств номинации хронотопа повествования – в 3 раза меньше показателей аналогичных метрик в художественных текстах. Коэффициент корреляции К. Пирсона (r) показал высокую прямолинейную зависимость степени повествовательности русскоязычных текстов от количества динамичных глаголов (r=0.7), и среднюю зависимость от средств номинации субъекта (r=0.56) и хронотопа (r=0.53) повествования. Чем выше количество данных элементов в тексте, тем более повествовательным является сам текст. Корреляционная связь между объемом высокочастотных лексических единиц и повествовательностью текста крайне слабая (r=0.21), а в случае со средствами референциальной связности – она отсутствует полностью (r=-0.02). Разработана методика проведения экспериментов для определения объема пассивного словаря школьников, в основе которой стохастическая теория тестов и принцип частотности, а также концепция соотношения и взаимодействия индивидуальных словарей с лексической системой языка. Инструментарий включает тест с множественным выбором, позволяющий сравнивать разные методики и методы. Выбор тестовых слов осуществляется с использованием частотного словаря Шаров С. А. (32 тыс. слов). Методика основана на случайной выборке каждого сотого слова в словаре. Создан набор тестов со словами в интервале частот 2 000 по 25 000, в котором для каждого слова подбирается 4 толкования на выбор, при этом только одно из них является верным. Учебники по теме «Окружающий мир» за второй и четвертый классы проанализированы на предмет используемых синтаксических конструкций. Получены численные характеристики, подтверждающие следующие закономерности. Тексты гуманитарной части учебника, посвященные истории страны, обществознанию и культуре, содержат более длинные предложения с более сложной синтаксической структурой, чем тексты из первой части учебника, имеющей естественнонаучную направленность. Участники проекта сделали 14 докладов на научных конференциях и школах разного уровня, в том числе пленарный доклад на конференции в Тель-Авиве. Опубликованы или принято к печати 17 статей и тезисов докладов. Защищена 1 кандидатская диссертация.

Публикации

1. Иванов В.В., Солнышкина М.И., Соловьев В.Д. Efficiency of text readability features in Russian academic texts Computational Linguistics and Intellectual Technologies, volume 17, pages 277-287 (год публикации - 2018)

2. Солнышкина М.И., Гурьянов И.О., Гафиятова Э.В., Варламова Е.В. Readability Metrics: The Case Of Russian Educational Texts Abstracts & Proceedings of ADVED 2018 - 4th International Conference on Advances in Education and Social Sciences, 15-17 October 2018- Istanbul, Turkey, Abstracts & Proceedings of ADVED 2018 - 4th International Conference on Advances in Education and Social Sciences, 15-17 October 2018- Istanbul, Turkey, pp. 676-681. (год публикации - 2018)

3. Солнышкина М.И., Иванов В.В., Соловьев В.Д. Characterizing Text Complexity with Core Vocabulary Distributional Patterns: Corpus-based Approach CEUR Workshop Proceedings, Vol. 2268 (год публикации - 2018)

4. Солнышкина М.И., Иванов В.В., Соловьев В.Д. Readability Formula for Russian Texts: a Modiﬁed Version Lecture notes in artificial intelligence, vol. 11289, Part II (год публикации - 2018) https://doi.org/10.1007/978-3-030-04497-8_11

5. Солнышкина М.И., Казачкова М.Б., Варламова Е.А., Ильясова Л.Г. The Use of Pronouns in Russian Classroom Textbooks: A Quantitative Study Abstracts & Proceedings of ADVED 2018 - 4th International Conference on Advances in Education and Social Sciences, 15-17 October 2018- Istanbul, Turkey, Abstracts & Proceedings of ADVED 2018 - 4th International Conference on Advances in Education and Social Sciences, 15-17 October 2018- Istanbul, Turkey, pp. 688-696. (год публикации - 2018)

6. Солнышкина М.И., Казачкова М.Б., Гафиятова Э.В., Варламова Е.В. Linking words in Russian Social Studies Course Books:A Study on Text Complexity Abstracts & Proceedings of SOCIOINT 2018- 5th International Conference on Education, Social Sciences and Humanities, Abstracts & Proceedings of SOCIOINT 2018- 5th International Conference on Education, Social Sciences and Humanities, 2-4 July 2018- Dubai, UAE - pp.764-771 (год публикации - 2018)

7. Соловьев В.Д., Солнышкина М.И., Иванов В.В., Батыршин И.З. Prediction of Reading Difficulty in Russian Academic Texts Journal of Intelligent & Fuzzy Systems, - (год публикации - 2019)

8. Солнышкина М.И., Гафиятова Э.В. Методика проведения лингвистического эксперимента: к вопросу об определении словаря языковой личности Современные исследования социальных проблем, №4-3,Том 10, 2018. стр. 12-31 (год публикации - 2018)

9. Андреева М.И., Гатиятуллина Г.М., Кисельников А.С. Сентимент-лексика как параметр сложности дискурса Симпозиум Проблемы языкового образования в поликультурной среде -- Казань, 12 октября 2018г., сборник материалов Симпозиума "Проблемы языкового образования в поликультурной среде" -- Казань, 12 октября 2018г. -- С.7-9 (год публикации - 2018)

10. Андреева М.И., Сунгатуллина Д.Д., Гатиятуллина Г.М. Эмотивы как основа сентимент-анализа дискурса в контексте проблемы сложности текста Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы Международного научно- практического форума, Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы Международного научно- практического форума. – Казань: Изд-во Казан. ун-та, 2018. – C.5-8 (год публикации - 2018)

11. Кисельников А.С., Андреева М.И., Сунгатуллина Д.Д., Гатиятуллина Г.М. Информация как фактор сложности экзаменационного текста Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы Международного научно- практического форума, Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы Международного научно- практического форума. – Казань: Изд-во Казан. ун-та, 2018. –C.93-95 (год публикации - 2018)

12. Кисельнков А.С., Сунгатуллина Д.Д., Гатиятуллина Г.М., Андреева М.И. Критерий сложности текста при разработке теста сборник материалов симпозиума "Проблема языкового образования в поликультурной среде", сборник материалов симпозиума "Проблема языкового образования в поликультурной среде" : Казань, 12 октября 2018 г. -- С.69-71 (год публикации - 2018)

13. Солнышкина М.И., Гатиятуллина Г.М., Андреева М.И. Синтаксическая сложность учебных текстов (на материале учебников начальных классов) Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы, Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы Международного научно- практического форума. – Казань: Изд-во Казан. ун-та, 2018 - С.194-197 (год публикации - 2018)

14. Соловьев В.Д. Text complexity: contemporary approaches Cognitive Modeling: Proceedings of the Fourth International Forum on Cognitive Modeling, с. 374 (год публикации - 2018)

15. Соловьев В.Д., Солнышкина М.И., Иванов В.В., Данилов А.В. Глубоко аннотированный корпус для изучения сложности текстов на русском языке XV Международная конференция по компьютерной и когнитивной лингвистике TEL 2018. Сборник трудов: в 2-х томах. Т. 1., С. 356-360 (год публикации - 2018)

16. Сунгатуллина Д.Д., Кисельников А.С., Андреева М.И., Гатиятуллина Г.М. Номинации реалий: этнокультурная лексика в текстах экзаменационного дискурса Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы, Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы: материалы Международного научно- практического форума. – Казань: Изд-во Казан. ун-та, 2018. –C.200-202 (год публикации - 2018)

17. Сунгатуллина Д.Д., Кисельников А.С., Гатиятуллина Г.М., Андреева М.И. Частотность лексических единиц в экзаменационных текстах Проблемы языкового образования в поликультурной среде, материалы симпозиума "Проблемы языкового образования в поликультурной среде": Казань, 12 октября 2018г. - С.133-134 (год публикации - 2018)

Аннотация результатов, полученных в 2019 году
Во второй год реализации проекта были продолжены исследования параметров сложности текста и создан прототип автоматического анализатора сложности текстов. Основное внимание уделено школьным учебникам. Существенно расширен корпус учебников для средней школы – к учебникам по истории и обществознанию добавлено 12 учебников по биологии и 33 учебника по литературе. Включение в корпус учебников по биологии позволяет сопоставить сложность учебников по естественно-научным и гуманитарным дисциплинам. Осуществлена серия психолингвистических экспериментов, нацеленных на выявление объема пассивного словаря, т.е. степени «знакомости» слов для школьников различных возрастных групп. Эксперименты проводились по методике множественного выбора. Подготовлено более 4 тыс. заданий на знание слов до 12-ти тысячного по частотному словарю. На основе данных, полученных в рамках четырех экспериментов в двух городских и двух сельских школ с более чем 400 респондентами, полностью подтверждена гипотеза о том, что школьник 4 класса к моменту окончания начальной школы знает (т.е. понимает при чтении) 7000 лемм. Гипотеза об объеме словарного запаса школьник 9 класса требует дополнительных исследований, а объем в 12000 лемм следует считать заниженным для среднестатистического носителя русского языка в возрасте 15 лет. Словарный запас школьников определялся на основе теста, в который входило не более 40 заданий: 10 первых слов (1 – 10) проверялись при помощи самооценивания (знаю/не знаю), 30 слов (11 – 40) предъявляются респондентам со списком из трех дистракторов и одного правильного ответа в тесте на множественный выбор. Во время теста каждый испытуемый получает возможность совершить только одну ошибку при выборе правильного ответа. В случае, если испытуемый совершает две ошибки, он переходит на более низкий уровень. Тест осуществляется в онлайн-режиме на сайте, разработанном специально для осуществления тестирования (http://google.com/view/kfuforpupils). Задания тестов разрабатывались на основе Частотного словаря русской лексики О.Н. Ляшевской, С. А. Шарова (http://dict.ruslang.ru/freq.php) . Показательно, что у школьников 9 класса различия в объеме словарного запаса по полу и уровню осведомленности не выявлены. У мальчиков 5 класса словарный запас несколько ниже, чем у девочек. Отдельная серия исследований была проведена в целях оценивания влияния ряда лингвистических параметров на восприятие школьниками текстов из учебников по обществознанию в 5 и 9 классах. Алгоритм данного исследования включал пересказ школьниками девяти оригинальных или модифицированных (с более высокой степенью связности) текстов. В частности оценивались параметры, обеспечивающие референциальную и глубинную связность текстов, предъявляемых респондентам для чтения. Из всего многообразия параметров, реализующих референциальную связность оценивались следующие: повторы знаменательных частей речи, синонимические замены, гиперо-гипонимические замены. Степень глубинной связности модифицированных текстов была увеличена за счет введения интенциональных связей, дискурсивных маркёров, а также удаления отрицаний. Сопоставление объемов текстов, воспроизводимых школьниками со средними индексами осведомленности, показало существенные различия: количество пропозиций в пересказах модифицированных текстов превышает количество пропозиций в пересказах оригинальных текстов из учебников. Результаты исследования также подтверждают, что средняя длина пересказа как оригинального текста, так и модифицированного текста не превышает 50% объема текста для чтения; средняя длина предложения в пересказах обоих текстов также приблизительно одинакова и составляет 12 – 14 предложений, респонденты с высоким уровнем общей осведомленности восстанавливают отсутствующие в тексте логические связи; наибольшему сокращению в текстах пересказов подвергаются имена собственные и модификаторы, характеризующие объект, исключение составляют эпитеты и дискурсивные маркеры, выражающие эвиденциальность, уверенность, достоверность; предположение и др. Дополнительными результатами осуществленной серии исследований являются два корпуса: (1) корпус пересказов текстов, насчитывающий 3574 аудиофайла с пересказом отдельного текста ; (2) корпус 18 оригинальных из учебников по обществознанию за 5 и 9 классы и 36 модифицированных с более высокой степенью связности. Обзор современной отечественной и зарубежной научной литературы показал близость научных парадигм в оценке связности (когезии) текста. При этом все многообразие языковых средств реализующих связность, объединены в два основных типа: референциальную и глубинную. В течение второго года осуществления проекта были составлены списки метрик референциальной связности текста: 1) количество повторов однокоренных знаменательных частей речи в одном предложении; 2) количество повторов однокоренных знаменательных частей речи в смежных предложениях; 3) количество повторов однокоренных знаменательных частей речи в тексте; 4) количество синонимов в тексте; 5) количество гиперонимов; 6) количество гипонимов; 7) количество глаголов в одной и той же видо-временной форме; 8) количество глаголов в одной и той же временной форме. Второй список включает параметров, на основании которых предлагается осуществлять расчет степени глубинной связности: дополняющие (соединительные и разделительне) связи, противительные связи, временные связи, пространственные связи, сравнительные связи, причинно-следственные связи, отрицательные связи, интенциональные связи, и дискурсивные маркёры (уверенность, достоверность; неуверенность, предположение, неопределённость, допущение; радость, одобрение; сожаление, неодобрение; удивление, недоумение; опасение; общий экспрессивный характер высказывания, источник сообщения; порядок мыслей и их связь и др.). Составлены списки языковых единиц, объективирующих каждый из выделенных маркеров глубинной связности. Получен большой объем данных по синтаксическим признакам. Расчеты значений признаков выполнялись на основе системы ЭТАП-4 ИППИ РАН. Для каждого из 33-х учебников вычислены значения 75 морфологических и синтаксических признаков. Для каждого признака рассчитан коэффициент корреляции по Пирсону со сложностью текста (номером класса, для которого написан учебник). Полученные результаты сопоставлены с данными других авторов для текстов иного характера, что позволяет повысить их надежность. В частности, для частеречных признаков получена следующая иерархия в порядке уменьшения корреляции: существительные > прилагательные > глаголы. Для морфологических признаков получена иерархия: сущ_род.пад. > суш._твор.пад. > сущ._предл.пад. Важно, что подобные морфологические признаки отсутствуют в английском языке, и потому ранее их влияние на сложность текстов не изучалось. Для существительных в родительном и творительном падежах нами получены очень высокие коэффициенты корреляции: 0,864. Обе иерархии согласуются с результатами А.Р. Лапошиной для тестов на знание русского языка, как иностранного. Из 90 признаков, рассматривавшихся за два года выполнения проекта, только 4 имеют коэффициент корреляции со сложностью, превышающий 0,9, что оценивается как очень высокая корреляция по шкале Чеддока. Это средняя длина предложений, средняя длина слов в слогах, среднее число существительных в предложении и частотность слов. В результате аналитического обзора литературы выделено несколько дополнительных признаков, которые включены в наше исследование. Это признак Repeat Rate, вычисляемый как сумма квадратов частот слов, деленная на квадрат общего числа слов; sTTR – модификация хорошо известного признака Text-Type Ratio; доля в тексте абстрактных слов; размер семантически связанных сегментов текста. Создан прототип системы, свободно доступный в интернете по адресу http://tykau.pythonanywhere.com/main. Для тестирования выделены следующие признаки, по которым в настоящее время проводятся расчеты: средняя длина предложения, средняя длина слов в слогах, частотность и ранг слов (по частотному словарю Шарова-Ляшевской), среднее число существительных, глаголов, прилагательных в предложении, значение формулы сложности по Оборневой и предложенной нами ранее формулы. Также рассчитывается общее число слов и предложений в тексте. Сравнение значений параметров сложности учебников по гуманитарным дисциплинам и биологии показало следующее. В учебниках по биологии и предложения, и слова несколько короче, причем это особенно заметно в старших классах. Соответственно, формула сложности, использующая только эти два параметра, приводит к разным результатам. Оценка сложности для учебников по биологии оказалась, в среднем, на 1 класс ниже ожидаемой. Достигнута договоренность и начаты работы по включению русского языка в международную многоязычную среду оценки сложности текстов ReaderBench (http://www.readerbench.com/). В настоящее время ReaderBench обрабатывает 82 признака, из которых для русского языка – 55. Результаты проекта размещены на сайте https://kpfu.ru/slozhnost-tekstov-304364.html.

Публикации

1. МакКарти К. С., МакНамара Д. С., Солнышкина М. И., Тарасова Ф. Х., Куприянов Р. В. Тестирование по русскому языку: оценка понимания текста Вестник Волгоградского государственного университета Серия 2. Языкознание, №4 (год публикации - 2019)

2. Солнышкина М.И., Соловьев В.Д., Андреева М.И., Данилов А.В. Влияние связности текста на его восприятие: экспериментальный подход Труды конференции "И.А.Бодуэн де Куртенэ и мировая лингвистика", том 1., с. 212-216 (год публикации - 2019)

3. Солнышкина М.И., Соловьев В.Д., Иванов В.В., Данилов А.В. Studying Text Complexity in Russian Academic Corpus with Multi-Level Annotation CEUR Workshop Proceedings. Computational Models in Language and Speech Workshop (CMLS 2018) Proceedings, Vol.2303, pp. 93-103 (год публикации - 2019)

4. Соловьев В.Д., Солнышкина М.И., Гафиятова Е., Мак Намара Д., Иванов В.В. Sentiment in academic texts 24th Conference of Open Innovations Association FRUCT, Volume 2019-April, paper # 8711900, Pages 408-414 (год публикации - 2019) https://doi.org/10.23919/FRUCT.2019.8711900

5. Соловьев В.Д., Солнышкина М.И., Иванов В.В., Рыгаев И. Computing syntactic parameters for automated text complexity assessment CEUR Workshop Proceedings. 14th International Conference on Interactive Systems: Problems of Human-Computer Interaction, Volume 2475, Pages 62-71 (год публикации - 2019)

6. Петрова А.А., Солнышкина М.И. ПИСЬМЕННАЯ КОММУНИКАЦИЯ: ТЕКСТОВЫЙ И ЛИНГВИСТИЧЕСКИЙ ПОДХОДЫ К ТЕОРИИ И ЭМПИРИИ Вестник ВолГУ. Серия 2, Языкознание., Т. 18. № 3, с.276-281 (год публикации - 2019) https://doi.org/10.15688/jvolsu2.2019.3.23

7. - Нейросеть оценила сложность текстов на русском языке Indicator, 25.06.19 (год публикации - )

8. - Машинное обучение позволило лучше оценить сложность русских текстов Портал РАН, 25.06.19 (год публикации - )

9. - Не слишком ли сложно? Машинное обучение проверит, понятен ли текст аудитории Вести. Наука, 15.06.19 (год публикации - )

10. - Машинное обучение позволило лучше оценить сложность русских текстов Газета.ru, 25.06.19 (год публикации - )

11. - Искусственный интеллект поможет написать понятные учебники, заявили ученые РИА Наука, 25.06.19 (год публикации - )

12. - Искусственный интеллект будет писать учебники Яндекс.Дзен, 02.07.119 (год публикации - )

13. - Искусственный интеллект поможет написать понятные учебники, заявили ученые Последние казанские новости сегодня, 25.06.19 (год публикации - )

Аннотация результатов, полученных в 2020 году
Основными полученными на третий год выполнения проекта результатами являются следующие. 1. Корпус учебных текстов существенно расширен и теперь является более разножанровым. Подготовлена коллекция учебников по английскому языку и коллекция изучаемых в школе художественных произведений, снабженная метаданными. 2. Подготовлен словарь академической лексики, словарь устаревших слов, списки слов лексических минимумов уровней А1-С1 для изучающих русский язык как иностранный по опубликованным печатным источникам. 3. Число рассчитываемых анализатором текстов (http://tykau.pythonanywhere.com/) параметров увеличено до 30. Рассчитываются значения новых признаков: число существительных в каждом из падежей; число глаголов по временам; параметры референциальной связности – локальное (в пределах одного или двух соседних предложений) и глобальное совпадение слов текста; параметры глубинной связности. Установлено, чтоглубинная связность лишь в небольшой степени коррелирует со сложности текстов. Русский язык официально включен в состав многоязыковой системы ReaderBench (http://www.readerbench.com/demo/textual-complexity), в которой подсчитываются значения более 100 параметров. 4. Предложено принципиально новое направление исследований сложности текстов, основанное на технологии тематического моделирования. Рассмотрены 3 тематические модели ARTM, LDA и Online LDA, 3 способа сегментирования текстов: (i) полные тексты книг, (ii) сегменты размером 1000 слов, (iii) абзацы. В качестве автоматических мер качества тем взяты: (i) мера семантической связности тем, основанная на векторных представлениях word2vec, (ii) мера статистической когерентности тем normalized pairwise mutual information (NPMI), (iii) мера разнообразности тем diversity. Для подсчета метрики (i) использованы векторные представления word2vec, обученные на корпусах НКРЯ и "Тайга". В итоге исследований показано, что тематическое моделирование может служить одним из методов оценки сложности текстов. Получен ряд конкретных результатов. Во-первых, сегментация текстов полных книг приводит к существенному улучшению оценок интерпретируемости тематических моделей. Во-вторых, наилучшие оценки интерпретируемости показывают модели ARTM и LDA. В-третьих, для книги заданного уровня сложности (класса) значение меры сходства с книгами более низкого уровня убывает почти линейно по мере уменьшения уровня сложности.В-четвертых, с ростом сложности образовательных текстов, уменьшается расстояние между векторами слов word2vec наиболее вероятных слов текста. То есть слова тем более сложных текстов показывают более сильную семантическую связь. В-пятых, с ростом сложности наибольший вес в текстах приобретают темы, чьи слова имеют более низкую среднюю частоту в языке. 5. Развит инновативный подход с использованием тезаурусов для оценки сложности текстов.Подход опробовался на английском языке в виду наличия для него необходимых цифровых и вычислительных ресурсов, отсутствующих для русского. Рассмотрено несколько вариантов корпусов (Simple Wikipedia, NEWSELA), тезаурусов (WordNet, Wikidata) и методов машинного обучения (классификаторы, нейронные сети). Получены следующие основные результаты. Точность классификации текстов по уровням сложности достигала 93%. При добавлении двух дополнительных признаков (средняя длина слова или средняя длина предложения точность увеличивалась до 95%). При этом модель, обученная исключительно на «классических» признаках, показывала точность не более 85%. Нейросетевой подход привел к худшим результатам и качество модели не удалось улучшить путем изменения параметров. 6. Лингвистические исследования сложности текстов. А. Сложность художественной литературы. Анализ проводился на базе 100 произведений русской литературы, издававшихся за последние 120 лет и относящихся к элитарной и массовой литературе. Сопоставление результатов анализа индекса удобочитаемости не показало значимых различий между произведениями из категорий «элитарная» и «массовая» литература. Проведено сравнение абстрактности текстов как показателя лексической сложности текстов. Известно, что авторы произведений с модернистской доминантой активно используют различные форму художественной условности (гротеск, фантастика, гипербола, аллегория и пр.). При этом не наблюдается значимой тенденции к увеличению или уменьшению индекса со временем, а также значимые отличия индексов массовой и элитарной литературы. Сопоставление лексиконов разных авторов с корпусом текстов Google books Ngram с использованием меры близости Йенсена_Шеннона показало наличие тенденции к сближению лексиконов авторов с обще употребительной лексикой, представленным корпусом текстов Google books Ngram. Б. Сложность юридической литературы. Сопоставление выборки документов Правительства и Конституционного суда РФ и РСФСР показало значительное повышении сложности текстов законодательных документов. Если законодательные документы 1992 были доступны выпускникам средней школы, то современные документы доступны уже только аспирантам. 7. Психолингвистические эксперименты А. В рамках 3-го этапа проекта в 2020 г. была поставлена задача выявить нормы пассивного словарного запаса для учащихся 9-10 классов (15 -16 лет). На основании частотного словаря русского языка были разработаны тесты на множественный выбор слов в диапазоне 15000 – 49000 (по известному частотному словарю Ляшевской-Шарова). Для обеспечения валидности теста испытуемый подтверждал знание слова определенного уровня два раза, в случае двух ошибок на одном уровне следующее предлагаемое испытуемому слово находилось на более низком уровне. Тест осуществляется в онлайн-режиме при помощи специально разработанных форм и программы выгрузки данных (http://loopfront.pythonanywhere.com/). В общей сложности разработано 760 заданий для 34 оцениваемых уровней словарного (от 15000 до 49000 в списке Частотности С. Шарова). В тесте приняли участие 90 15-16-летних школьников, обучающихся в городе Чистополи Республики Татарстан. 52 школьника (более 63%) показали знания слов в диапазоне от 0 до 11 уровней, что соответствует 15000 – 25000 леммам. Данный результат следует рассматривать как предварительный, требующий уточнения. Для обеспечения верификации результатов планируется привлечение 250 – 300 респондентов, которые из-за пандемии не смогли принять участие в исследовании. Б. Для оценки гипотез о влиянии синтаксических моделей и связности на сложность восприятия текста были осуществлены две серии психолингвистических экспериментов со школьниками 5-х (n=220), 9-х и 10-х (n=238) классов. Для проверки гипотез было подготовлено 36 текстов: 18 оригинальных из учебника Л.Н.Боголюбова и 18 модифицированных. Доказано влияние средств референциальной и глубинной связности на восприятие текста. В одинаковом ситуативном (уровень осведомленности, внимания, тревожности, владение русским языком) и глобальном контекстах выявлено влияние следующих пар синтаксических конструкций на восприятия: (а) с отглагольные существительные →конструкции с инфинитивом; (б) причастия в препозиции →причастия в постпозиции к определяемому слову; (в) именные предложные →именные конструкции с глаголом; (г) конструкции с причастным оборотом → конструкции с придаточным определительным с союзом который.

Публикации

1. Андреева М.И., Солнышкина М.И., Соловьев В.Д., Заикин А., Букач О.В. Computing descriptive metrics and propositions in reading texts and recalls CEUR Workshop Proceedings, - (год публикации - 2020)

2. Гатиятуллина Г.М., Солнышкина М.И., Соловьев В.Д., Данилов А.В., Мартынова Е.В., Ярмакеев И.Э. Computing Russian Morphological Distribution Patterns Using RusAC Online Server Proceedings of the International Conference on Developments in eSystems Engineering (DeSE), - (год публикации - 2020)

3. Кисельников А., Вахитова Д.,Казымова Т. Coh-metrix readability formulas for an academic text analysis IOP Conference Series: Materials Science and Engineering, Volume 890, Issue 1, 12 August 2020, Номер статьи 012207 (год публикации - 2020) https://doi.org/10.1088/1757-899X/890/1/012207

4. Саховский А.С., Соловьев В.Д., Солнышкина М.И. Topic Modeling for Assessment of Text Complexity in Russian Textbooks Proceedings - 2020 Ivannikov Ispras Open Conference, ISPRAS, - (год публикации - 2020)

5. Саховский А.С., Тутубалина Е.В., Соловьев В.Д., Соолнышкина М.И. Topic Modeling as a Method of Educational Text Structuring Proceeding of the DeSe, - (год публикации - 2021)

6. Солнышкина М.И., Мартынова Е.В., Андреева М.И. Пропозициональное моделирование для оценки информативности текста Ученые записки Национального общества прикладной лингвистики, № 3 (31), 2020 – С.47-57. (год публикации - 2020)

7. Солнышкина М.И., Харькова Е.В., Казачкова М.Б. The Structure of Cross-Linguistic Differences: Meaning and Context of ‘Readability’ and its Russian Equivalent ‘Chitabelnost’ Journal of Language and Education, Volume 6, Issue 1, 31 March 2020, Pages 103-119 (год публикации - 2020) https://doi.org/10.17323/jle.2020.7176

8. Соловьев В.Д., Иванов В.В., Солнышкина М.И. Thesaurus-Based Methods for Assessment of Text Complexity in Russian Advances in Computational Intelligence. MICAI 2020. Lecture Notes in Computer Science, vol 12469. pp 152-166 (год публикации - 2020) https://doi.org/10.1007/978-3-030-60887-3_14

9. Соловьев В.Д., Солнышкина М.И., Андреева М.И., Данилов А.В., Замалетдинов Р.Р. Text Complexity and Abstractness: tools for the Russian language Proceedings of the CompLing, - (год публикации - 2021)

10. Байрашева Э.Р., Гатиятуллина Г.М., Гафиятова Э.В., Гурьянов И.О., Замалетдинов Р.Р., Исмаева Ф.Х., Казачкова М.Б., Кисельников А.С., Солнышкина М.И., Соловьев В.Д., Яковлева С.Н., Ярмакеев И.Э. Учебный корпус русского языка -, 2020622254 (год публикации - )

Возможность практического использования результатов
Созданная в рамках проекта технологическая платформа анализа сложности текстов может быть использована в образовании для контроля и повышения качества учебников, что будет содействовать повышению качества образования.