КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 23-28-00548
НазваниеМетодология исследования в области контрастивной пунктуации
Руководитель Нуриев Виталий Александрович, Доктор филологических наук
Организация финансирования, регион федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук" , г Москва
Конкурс №78 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами»
Область знания, основной код классификатора 08 - Гуманитарные и социальные науки; 08-453 - Языкознание
Ключевые слова методология исследования, пунктуация, корпусно-ориентированное исследование, контрастивная пунктуация, русский, французский, немецкий, языковая асимметрия, пунктуационный узус
Код ГРНТИ16.21.21
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Пунктуационный узус в разных языках может иметь существенные расхождения. Проблемы такого расхождения пунктуационных систем изучает контрастивная пунктуация — лингвистическая область, до настоящего времени мало разработанная (см. [Сигал 2012]). Ее дальнейшее развитие обуславливает актуальность заявляемого проекта, нацеленного на формирование методологии исследования в области контрастивной пунктуации.
Поставленная научная проблема обладает выраженной научной новизной, т.к. в современной лингвистике отсутствуют работы, направленные на систематизацию методологических принципов изучения контрастивной пунктуации. Существуют лишь разрозненные исследования, в фокусе которых находятся отдельные, точечные вопросы (подробнее см. форму 4).
Переводчику (человеку или автоматизированной системе), между тем, необходимо иметь представление о пунктуационных расхождениях в разных языках, чтобы, руководствуясь пунктуационным оформлением оригинала, уяснить, как обработать пунктуационный компонент, не исказив исходного смысла.
Для языков европейского ареала выделяют два типа пунктуационного узуса. Первый называют коммуникативным. Он ориентирован на отражение смысловой информации (французский, английский, итальянский и т.д.). Второй называют морфосинтаксическим или грамматическим. Он стремится маркировать формально-грамматическую сегментацию предложения (немецкий, чешский, польский, русский и т.д.). Т.е. различия в пунктуационном оформлении отражают разные способы анализа речевого произведения, свойственные разным языкам.
Заявляемый проект направлен на формирование методологического комплекса для изучения контрастивной пунктуации. Предполагается выработать алгоритм исследования и структуру описания данных, сформулировать принципы их верификации, параметризировать ограничения, найти способы оптимизации исследовательской модели.
Для этого на корпусном материале предполагается изучить и описать функционирование многоточия и двоеточия в трех языках – русском, немецком, французском. С этим также связана научная новизна проекта. Подобных исследований на материале языковых пар русский-французский и русский-немецкий (в обоих переводных направлениях) еще не проводилось. Кроме того, будет использован корпусный материал объемом более 36 млн словоупотреблений (немецко-русский/ русско-немецкий, французско-русский / русско-французский параллельные корпусы). Обычно в подобных проектах объем экспериментальных корпусов значительно меньше.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1. Нуриев В.А., Кружков М.Г. Корпусные данные при контрастивном изучении пунктуации Системы и средства информатики, Том 33, выпуск 1, с. 14–23 (год публикации - 2023)
2.
Нуриев В.А., Карпов В.И.
Методология корпусно-ориентированного исследования в области контрастивной пунктуации
Информатика и ее применения, Том 17. Выпуск 2. С. 90–95. (год публикации - 2023)
10.14357/19922264230213
3.
Карпов В.И.
О корпусном методе в контрастивных исследованиях пунктуации: двоеточие в немецком языке
Русская германистика: Ежегодник Российского союза германистов, № 21. С. 194-217 (год публикации - 2024)
10.47388/2782-2605/lunn2024-21-194-217
4. Карпов В.И., Нуриев В.А. Многоточие в русской литературе XVIII–XIX вв.: узус и кодификация // Известия Российской Академии наук. Серия литературы и языка Известия Российской Академии наук. Серия литературы и языка, № 1 (год публикации - 2025)
5.
Нуриев В.А.
Applying computer-assisted tools to literary translation: the case of punctuation
Информатика и её применения, Том 18, выпуск 3, с. 115-121 (год публикации - 2024)
10.14357/19922264240314
Аннотация результатов, полученных в 2024 году
Проект направлен на разработку методологической схемы корпусно-ориентированного исследования в области контрастивной пунктуации на материале русского, французского и немецкого языков. По завершении второго года результатами проекта стали способы оптимизации исследовательской модели для изучения контрастивной пунктуации и необходимые (и достаточные) принципы верификации полученных данных. На втором эмпирическом этапе производился сбор корпусных данных для изучения функционального потенциала многоточия в языковых парах русский-французский и русский-немецкий в обоих переводных направлениях. Затем был выполнен контрастивный анализ многоточия, описан его функциональный потенциал в изучаемых языковых парах и решены следующие задачи: рассчитана частотность многоточия в сопоставляемых языках, уточнена его функциональная нагрузка, выявлены зоны функциональной симметрии и асимметрии. Основной корпусный информационный инструмент – база данных, функционирующая на основе параллельных корпусов Национального корпуса русского языка (НКРЯ). База данных предусматривает возможность формирования необходимых поисковых запросов для обработки пунктуационного компонента параллельных текстов. Это позволило привлечь корпусный материал представительного объема. Исходные данные удовлетворяли принципу сбалансированного наполнения текстового материала, предполагая относительно равномерное распределение текстовых источников по целому ряду параметров: жанровому разнообразию, количественному равновесию и т.п. В результате был сформирован массив параллельных контекстов, где зафиксированы следующие случаи постановки многоточия: пунктуационный знак в исходном тексте передается тем же знаком препинания, заменяется иным знаком препинания, опускается в переводном тексте (заменяется нулевым эквивалентом). Также рассмотрены случаи, когда в переводе зафиксирована постановка многоточия при его отсутствии в исходном тексте или наличии там какого-либо другого пунктуационного знака в сходной синтаксической позиции. Наблюдения о пунктуационной асимметрии на этом этапе позволили повторно проверить состоятельность предлагаемой методологии и сделать ряд лингвистически интересных выводов. Согласно корпусным данным, можно утверждать, что многоточие в русском продуктивнее, чем во французском и немецком. Также при переводе с французского и немецкого многоточие является хоть и не абсолютным, но существенным пунктуационным прескриптором. При этом в обратном переводном направлении его прескриптивность ослабевает. Дальнейшие перспективы исследования будут связаны с выявлением и описанием устойчивых переводных соответствий многоточия, особенностей передачи его функциональной значимости при переводе и основных трансформационных синтаксических сдвигов, сопряженных с этим.
Публикации
1. Нуриев В.А., Кружков М.Г. Корпусные данные при контрастивном изучении пунктуации Системы и средства информатики, Том 33, выпуск 1, с. 14–23 (год публикации - 2023)
2.
Нуриев В.А., Карпов В.И.
Методология корпусно-ориентированного исследования в области контрастивной пунктуации
Информатика и ее применения, Том 17. Выпуск 2. С. 90–95. (год публикации - 2023)
10.14357/19922264230213
3.
Карпов В.И.
О корпусном методе в контрастивных исследованиях пунктуации: двоеточие в немецком языке
Русская германистика: Ежегодник Российского союза германистов, № 21. С. 194-217 (год публикации - 2024)
10.47388/2782-2605/lunn2024-21-194-217
4. Карпов В.И., Нуриев В.А. Многоточие в русской литературе XVIII–XIX вв.: узус и кодификация // Известия Российской Академии наук. Серия литературы и языка Известия Российской Академии наук. Серия литературы и языка, № 1 (год публикации - 2025)
5.
Нуриев В.А.
Applying computer-assisted tools to literary translation: the case of punctuation
Информатика и её применения, Том 18, выпуск 3, с. 115-121 (год публикации - 2024)
10.14357/19922264240314
Возможность практического использования результатов
Имеется существенная возможность практического использования результатов проекта в экономике и социальной сфере. Разработанная в рамках проекта методология нацелена на извлечение нового знания о знаках препинания. Дигитализация современной коммуникации привела к необходимости пересмотреть и дополнить существующее представление о пунктуационной системе. Так, сейчас в коротких сообщениях и других видах приватной электронной коммуникации часто опускаются точки, которые традиционно на письме отмечают границу предложения. Постановка точки в коротком сообщении все больше воспринимается как выражение злости или раздражения – сигнал неуместной окончательности. Использование многоточия как концевого знака, наоборот, возросло, отчасти заменив отсутствующую точку. Изменяется функциональная нагрузка и других знаков препинания, например, восклицательного. В русском языке наблюдается его сильнейшая семантическая девальвация: он резко сокращает свое присутствие в письменной речи. Пополнение знаний о пунктуации непосредственно связано с актуальными задачами информатики. Оно необходимо для проектирования ряда современных информационных продуктов на основе искусственного интеллекта, в частности, голосовых ассистентов нового поколения. В их технологический стек входят два основных алгоритма: автоматическое распознавание речи и преобразование текста в речь. При распознавании речи не удается обеспечить правильное пунктуирование: в сгенерированном тексте некоторые знаки препинания либо расставляются неверно, либо совсем отсутствуют. Определяющую роль играет пунктуация на этапе преобразования текста в речь, где для обеспечения естественности звучания необходимо привнести разные модальности в речь голосового ассистента. Реконструкция модальности производится на основе семантически насыщенных знаков препинания (точки, восклицательного и вопросительного знаков, многоточия). В настоящее время ведутся интенсивные работы по созданию голосовых трансформеров, способных выражать модальность высказывания. Результаты настоящего исследования могут внести значительный вклад в создание таких трансформеров и их калибровку. Знание о пунктуации представляет особое значение и для развития систем машинного перевода. В переводе, выполняемым человеком, семантически насыщенный знак типа вопросительного может заменяться восклицательным, если переводчик осмысляет семантическую ситуацию в языке перевода как неприемлемую для оформления исходным знаком препинания и заменяет его на более уместный:
(1)
— Allô?… Pourrais-je parler à… Ghita Wattier? ai-je bredouillé. [Patrick Modiano. Quartier perdu (1985)]
― Алло!.. Можно попросить… Гиту Ватье, ― забормотал я. [пер. Ю. Яхнина, 1989]
В переводе этого французского текста на русский с помощью GPT-4 или Google Translate исходный пунктуационный знак служит абсолютным прескриптором и сохраняется, причем в некорректной форме (?...). Это связано с тем, что системами машинного перевода не всегда учитываются межъязыковые пунктуационные дифференциации. Результаты проведенного исследования помогут избежать таких ошибок.