КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер 22-28-20215
НазваниеСоздание речевого корпуса прибалтийско-финских языков Карелии
РуководительРодионова Александра Павловна, Кандидат филологических наук
Организация финансирования, регионФедеральное государственное бюджетное учреждение науки Федеральный исследовательский центр "Карельский научный центр Российской академии наук", Республика Карелия
Годы выполнения при поддержке РНФ | 2022 - 2023 |
КонкурсКонкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами» (региональный конкурс)
Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-453 - Языкознание
Ключевые словаРечевой корпус, вепсский язык, карельский язык, корпусная лингвистика, разрешение лексической многозначности, разметка текста, мультимедийная карта
Код ГРНТИ16.31.00
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Предстоящее десятилетие (2022-2032 гг.) станет в мире Десятилетием языков коренных народов, которое, в первую очередь, будет сосредоточено на правах носителей языков коренных народов. В своих стратегических рекомендациях к Десятилетию Лос-Пиносская декларация подчеркивает право коренных народов, в том числе, на получение образования на родном языке и участие в общественной жизни с использованием своих языков в качестве предварительных условий для выживания языков коренных народов, многие из которых в настоящее время находятся на грани исчезновения. Декларация также указывает на потенциал цифровых технологий в поддержке использования и сохранения этих языков. Для сохранения языкового богатства и последующего изучения языков коренных народов создаются лингвистические корпуса. В 2016 году сотрудники ИЯЛИ и ИПМИ КарНЦ РАН приступили к созданию многоязычного корпуса, который получил название «Открытый корпус вепсского и карельского языков» (ВепКар).
Основной целью настоящего проекта является создание речевого (звучащего) корпуса прибалтийско-финской речи на базе Открытого корпуса вепсского и карельского языков (ВепКар). Разработанный речевой модуль будет представлять собой собрание звучащих текстов на разных диалектах карельского и вепсского языков, снабженных транскрипцией, разметкой и переводом на русский язык.
Актуальность исследования обоснована необходимостью дальнейшего развития Открытого корпуса вепсского и карельского языков (ВепКар), широко востребованного как в научных исследованиях, так и в процессе развития литературных форм карельского и вепсского языков. С другой стороны, она связана с недостаточной разработанностью проблем фонетической и фонологической систем карельской и вепсской диалектной речи, что вызвано отсутствием необходимого количества качественного языкового аудиоматериала. Применение современных технологий и методик к накопленному на протяжении многих десятилетий полевому материалу в совокупности с новейшими данными позволит восполнить целый ряд лакун, выявленных лингвистами в данной системе ранее.
Научная новизна проекта обоснована недостатком речевых корпусов прибалтийско-финских языков. Цифровизация архивных и полевых аудио-образцов карельской и вепсской речи в формате Речевого корпуса в дальнейшем сможет упростить обработку и хранение материалов, позволит ввести в научный оборот и представить в открытый доступ уникальные аудиоматериалы, отражающие состояние карельских и вепсских диалектов начиная с середины прошлого столетия. Эти материалы хранятся в Фонограммархиве Института языка, литературы и истории КарНЦ РАН и крайне нуждаются в оцифровке, в целях обеспечения их дальнейшего хранения. В процессе работы запланирована разработка новых программных модулей корпуса ВепКар, нацеленных на обработку и анализ аудиоматериала карельского и вепсского языков. Одним из итогов проекта станет разработка мультимедийной карты говоров прибалтийско-финских языков Карелии, которая сможет предоставить возможность любому желающему, не выходя из дома, познакомиться с различными вариациями языков коренных народов республики. Также предполагается создание модуля озвучивания слов для включения аудиозаписей в словарную статью ВепКар.
Результаты планируемого проекта, нацеленного на исследование новописьменных карельского и вепсского языков, равно как и на возможность сохранить и популяризировать диалекты, несомненно, будут широко востребованы в Карелии не только для научных исследований и языкового строительства, но и в сферах образования, культуры, туризма, а также рядовыми пользователями ресурса.
Ожидаемые результаты
Массив оцифрованных аудиозаписей на разных диалектах карельского и вепсского языков (не менее 100 текстов) с целью введения в научный оборот ранее неопубликованных материалов.
Модуль ВепКар, предназначенный для загрузки, редактирования и поиска аудиозаписей в корпусе. В модуле будет поддерживаться отображение разметки, выполненной внешними программами (например, ELAN). Этот модуль позволит в дальнейшем сотрудникам КарНЦ добавлять архивные аудиозаписи в корпус ВепКар, а международное сообщество лингвистов получит доступ к постоянно пополняемой базе речевого корпуса ВепКар.
Будет проведено исследование фонетической и фонологической систем вепсской и карельской речи в синхронном и диахроническом аспектах на основе аудиоматериалов. Это позволит определить стандарты нормирования и провести редактирование устоявшихся правил и нормы новописьменных прибалтийско-финских языков региона, а также уточнить имеющиеся данные о развитии и состоянии диалектов карельского и вепсского языков.
Модуль озвучивания слов для включения аудиозаписей в словарную статью. В дальнейшем будут озвучены наиболее частотные слова карельского и вепсского языков в словаре ВепКар.
Создание мультимедийной карты говоров вепсского и карельского языков позволит представить всё многообразие живой и утраченной прибалтийско-финской диалектной речи Карелии. Эта карта может быть использована в образовательных и просветительских целях, а также для развития туризма в регионе.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2022 году
В отчетном году была изменена структура базы данных корпуса ВепКар, что позволило загружать в нее аудиозаписи текстов и отдельных слов. Параллельно лингвистами проекта был определен список говоров карельского и вепсского языков для дальнейшего отбора аудиоматериалов с целью их переноса в Речевой корпус. Носители карельского и вепсского языков проживают/проживали за пределами республики (Мурманская, Вологодская, Ленинградская, Новгородская, Тверская области) и их говоры представляют собой не меньшую ценность для решения проблем карельской и вепсской диалектологии, было принято решение расширить границы проекта до Северо-Запада Российской Федерации.
Для наполнения корпуса аудиозаписями карельской и вепсской речи на первом этапе проекта было выбрано три основных источника:
1) аудиоколлекции Фонограммархива ИЯЛИ КарНЦ РАН. За отчетный период было оцифровано более 10 часов образцов карельской и вепсской речи, записанных в 1959-1990 годы на магнитофонные пленки: кестеньгские, юшкозерские, подужемские, поросозерские, тихвинские, валдайские, весьегонские и толмачевские говоры собственно карельского наречия карельского языка, а также северно- и средневепсские говоры. Кроме того, для наполнения корпуса были подобраны аудиозаписи, произведенные сотрудниками института уже в цифровом формате в 2003-2021 годы: керетьские, оулангские, кестеньгские, вокнаволокские, ребольские, толмачевские говоры собственно карельского наречия, средне-, южнолюдиковские и михайловские говоры людиковского наречия, а также южновепсские говоры;
2) аудиозаписи радиопередач на ливвиковском наречии карельского языка, подготовленные сотрудниками ГТРК “Карелия”. Лингвистами проекта были отобраны интервью с носителями разных ливвиковских говоров: сямозерские, тулмозерские, ведлозерские, видлицкие, коткозерские, рыпушкальские и неккульские говоры;
3) полевые аудиозаписи, произведенные лингвистами проекта в отчетный период в места компактного проживания карелов: Медвежьегорский, Олонецкий, Кондопожский, терр. г. Костомукша Республики Карелия, Рамешковский район Тверской области.
Для каждой из отобранных для корпуса записей были определены границы для разбивки на фрагменты, произведена нарезка и загрузка в базу. Участниками проекта было выполнено подробное заполнение метаданных аудиозаписей, была произведена расшифровка аудиофрагментов и их перевод на русский язык. Была произведена полная грамматическая (определены грамматические формы каждого слова текста) и семантическая (отмечены значения каждого слова текста) разметка.
Результатом проделанной работы является модуль «Речевой корпус» (http://dictorpus.krc.karelia.ru/ru/corpus/speech_corpus), в котором представлены тексты корпуса, сопровождаемые аудиозаписями, а также необходимые для работы поисковые фильтры (поиск по языку/диалекту, месту и году записи, информанту и собирателю, источнику). В общей сложности за первый год работы произведено наполнение речевого корпуса 50 аудиофрагментами, представляющими собой разнообразие карельской и вепсской устной диалектной речи. При этом были опробованы различные источники наполнения подкорпусов. Для собственно карельского и людиковского подкорпусов использовались архивные и свежие полевые записи, производимые целенаправленно для решения задач проекта. Ливвиковский подкорпус наполнился за счет материалов карельских радиопередач. Вепсский подкорпус включил исключительно архивные данные. На следующем этапе работы планируется замена источников в рамках подкорпусов. Особую ценность для участников проекта представляет фрагмент записи валдайской речи, единственный обнаруженный к настоящему времени. Для облегчения работы пользователей с речевым корпусом и для обеспечения возможности наглядного представления звукового материала была разработана мультимедийная аудио-карта говоров прибалтийско-финской речи Карелии и сопредельных областей (http://dictorpus.krc.karelia.ru/ru/corpus/audiotext/map).
На карте нашли отражение все подготовленные аудиофрагменты: 15 аудио-образцов на ливвиковском наречии (ведлозерский, видлицкий, коткозерский, неккульский, рыпушкальский, сямозерский, тулмозерский диалекты), 7 аудио-образцов на людиковском наречии (среднелюдиковский, южнолюдиковский и михайловский диалекты), 21 аудио-образец на собственно карельском наречии (валдайский, весьегонский, вокнаволокский, дёржанский, керетьский, кестеньгский, оулангский, паданский, подужемский, поросозерский, ребольский, тихвинский, толмачевский, юшкозерский диалекты) и 7 аудио-образцов на вепсском языке (северновепсский, средневепсский восточный, средневепсский западный и южновепсский диалекты).
Кроме того, был разработан модуль загрузки изображений, что позволит в дальнейшем наполнить карту экспедиционными фотографиями разных лет, благодаря чему пользователь получит возможность погрузиться в атмосферу карельских и вепсских деревень (http://dictorpus.krc.karelia.ru/ru/corpus/text/4276). Кроме просветительских целей и задачи поддержания жизнеспособности диалектной речи, карта может активно использоваться в образовательных целях, например, в курсах преподавания карельской и вепсской диалектологии.
Параллельно с разработкой “Речевого корпуса” был разработан и реализован модуль озвучивания информантом подготовленного списка словарных слов и фраз на сайте ВепКар и непосредственно в словарной статье, что позволило в отчетный период озвучить 3 тыс. слов ливвиковского и более 1 тыс. слов людиковского наречий карельского языка. Все записи хранятся в базе данных корпуса ВепКар. Метаданными аудиозаписи являются имя диктора (информант из базы ВепКар), дата записи, идентификатор слова. Запись возможна в полевых условиях. В рамках собственно исследовательского этапа работы проекта была поставлена задача выявления диалектных маркеров карельской и вепсской речи, главным образом, на основе загруженных в корпус аудиофрагментов.
В процессе расшифровки записей, были выявлены основные фонетические диалекто-дифференцирующие черты, к которым следует отнести, в первую очередь, особенности систем восходящих нисходящих дифтонгов и переднеязычных щелевых согласных, конечную огласовку начальных и словоизменительных форм слов, особенности альтернационной системы согласных и др.
В ходе морфологической разметки расшифрованных текстов были определены основные диалектные особенности грамматических систем карельских и вепсских говоров, к которым стоит отнести, особенности падежных систем, отличия в количестве временных форм условного наклонения, особенности образования возвратных глагольных форм и пр. Семантическая разметка, соответственно, позволила выявить лексические междиалектные соответствия, т.е. были определены лексемы, имеющие в говорах отличное значение, или выявлены понятия, для именования которых в говорах используются разные слова.
В течение отчетного периода состоялось 3 выступления на международной (1), межрегиональной (1) и региональной (1) конференциях. Опубликовано 2 статьи (WoS и ВАК), 1 статья подготовлена и отправлена в редакцию журнала (WoS).
К иным способам обнародования результатов выполнения проекта можно отнести публикации в СМИ на русском и национальных языках Республики Карелия (в общей сложности 6): ГТРК “Карелия”, печатное издание “Karjalan Sanomat”, сайт КарНЦ РАН, группа “Молодые учёные ИЯЛИ” vkontakte.
Публикации
1. - Marina Tolstyh. Puhemalleja on esillä teksteissä ja äänitteissä Karjalan Sanomat, Karjalan Sanomat, № 21 (16537), 2022, c. 8 (год публикации - ).
2. - VepKar vaalii vähemmistökieliä Karjalan Sanomat, Karjalan Sanomat. № 42 (16558), 2022, с. 9 (год публикации - ).
3. - комментарий о Речевом корпусе для сайта Сайт КарНЦ РАН, http://www.krc.karelia.ru/news.php?id=4853 (год публикации - ).
4. - комментарий о проекте РНФ «Создание речевого корпуса прибалтийско-финских языков Карелии» и экспедиционном выезде в Медвежьегорский район Сайт КарНЦ РАН, http://www.krc.karelia.ru/news.php?id=4719&plang=r (год публикации - ).
5. - ТВ-интервью об экспедиционном выезде в паданский куст деревень Медвежьегорского района (на карельском языке) ГТРК "Карелия", https://www.youtube.com/watch?v=Xezh62OarGQ (год публикации - ).
6. - цикл загадок для населения по материалам экспедиции в паданский куст деревень Медвежьегорского р-на Страница VK "Молодые ученые ИЯЛИ", Публикации с 20.-27.06.2022: https://vk.com/youngresearchers_illh (год публикации - ).
7. Новак И.П., Крижановская Н.Б. Система восходящих дифтонгов в говорах карельского языка Карелии: сравнение методов кластеризации Вестник угроведения, 2022. Т. 12. № 3. С. 486–496 (год публикации - 2022).
8. Родионова А.П. О коллекциях людиковских диалектных материалов Фонограммархива ИЯЛИ КарНЦ РАН Ученые записки Петрозаводского государственного университета, № 7, Т. 44, С. 64–70 (год публикации - 2022).