КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 21-71-00132

НазваниеРазработка и исследование интегральной системы распознавания аудиовизуальной речи с использованием глубоких нейронных сетей

РуководительИванько Денис , Кандидат технических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки "Санкт-Петербургский Федеральный исследовательский центр Российской академии наук", г Санкт-Петербург

Период выполнения при поддержке РНФ 07.2021 - 06.2023 

Конкурс№60 - Конкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словаРечевые технологии, автоматическое чтение речи по губам диктора, машинное обучение, искусственный интеллект, аудиовизуальная речь, автоматическое распознавание речи, распознавание образов, интегральные системы распознавания речи, глубокие нейронные сети

Код ГРНТИ28.23.15, 28.23.37


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
На сегодняшний день, системы автоматического распознавания звучащей речи получили широкое распространение в повседневной жизни. Например, "Speech API" от Google, "Siri" от Apple или "Cortana" от Microsoft. Тем не менее, область применения таких систем (полагающихся на обработку исключительно аудиомодальности) весьма ограничена. В акустически шумных условиях (на улице, на вокзале, за рулем автомобиля, в метро и т.п.) точность распознавания речи таких систем стремительно ухудшается, не смотря на использование современных алгоритмов шумоподавления. Как хорошо известно, речь является результатом согласованной работы органов речеобразования человека (голосовых связок, гортани, легких, губ и языка), и устная речь передается одновременно по звуковому и визуальному каналам (модальностям). В ходе комплексного процесса понимания речи органы слуха (уши) воспринимают звуки, в то время как глаза видят движения губ и органов лица (глаз, бровей и т.д.) и вся эта информация объединяется в мозгу человека в единое представление смысла высказывания. Для того чтобы повысить качество распознавания (точность и робастность) предлагается разработать интегральную (англ. End-to-end) систему аудиовизуального распознавания речи на базе глубоких нейронных сетей. Такая система интегрирует методы анализа аудиосигнала и методы машинного зрения для автоматического чтения речи по губам говорящего. Интегральные системы автоматического распознавания речи объединяют в себе сразу все компоненты стандартных систем, тем самым сокращая время обработки и объем требуемой памяти. В настоящее время исследования, посвященные разработке интегральных систем, становятся очень популярными во всем мире, однако подобных исследований для аудиовизуальной русской речи не проводилось ни в России, ни за рубежом. В ходе данного проекта планируется разработать интегральную систему автоматического распознавания русской речи на базе глубоких искусственных нейронных сетей с различными архитектурами. На сегодняшний день не существует общепринятого подхода к разработке аудиовизуальных систем распознавания речи. Отсутствуют репрезентативные базы данных с открытым доступом для обучения моделей, которые бы обладали всеми необходимыми параметрами, такими как достаточное количество дикторов, фонемно-виземная временная разметка, адекватный задаче размер словаря и т.д. (практически нет общедоступных баз данных для языков, кроме английского). Отсутствуют исследования влияния скорости записи видеоданных на точность распознавания речи. Существует мало исследований о влиянии акустически шумных условий на производительность аудиовизуальных систем распознавания речи и мало работ посвящены анализу флективных языков (таких как русский). Опираясь на вышеизложенное, можно с уверенностью констатировать существенный пробел в научных исследованиях в отношении автоматического распознавания аудиовизуальной речи. Разработка и исследование интегральной системы распознавания речи на основе глубоких нейронных сетей в конечном итоге позволит приблизить эффективность распознавания автоматических систем к уровню восприятия речи людьми, что является крайне актуальной задачей. В ходе данного проекта ожидается получить принципиально новые научно-технические результаты и решения по аудиовизуальной распознаванию русской речи, которые окажут существенное влияние на дальнейшее развитие российских речевых технологий. Разработка интегральных систем является новым направлением в области автоматического распознавания речи. Научная новизна исследования состоит в разработке принципиально новых и модификации существующих методов, алгоритмов и математических моделей, использование которых позволить достичь заявленной цели. К планируемым результатам научных исследований следует также отнести подготовку и издание цикла научных публикаций (не менее 4 опубликованных статей в 2021-23 гг.) в ведущих российских и зарубежных научных журналах, индексируемых в Web of Science и/или Scopus и трудах международных конференций по данной тематике. Создаваемая интегральная система распознавания аудиовизуальной речи может быть в дальнейшем использована во многих разработках и технологиях, имеющих прикладное коммерческое назначение, в том числе в автоматизированных телефонных контакт-центрах, в интеллектуальных мобильных приложениях на базе смартфонов, системах речевого и многомодального человеко-машинного взаимодействия и диалоговых системах

Ожидаемые результаты
В ходе выполнения проекта будет получен ряд принципиально новых научно-технических результатов: математическое, программное и информационное обеспечение для интегральной системы распознавания аудиовизуальной речи с использованием глубоких нейронных сетей. Основные ожидаемые научные результаты данного проекта следующие: 1) Расширенный аналитический обзор по теме аудиовизуального распознавания речи, включающий не менее 50 современных научных публикаций и иных источников информации, опубликованных за последние 7 лет. 2) Новое и усовершенствованное математическое обеспечение, включающее математические модели и методы, основанное на современных методах машинного обучения, в том числе глубоких нейронных сетях (deep neural networks) и методах интегрального (end-to-end) распознавания. 3) Новое и дополненное существующее информационно-лингвистическое обеспечение, включающее комплекс из нескольких речевых баз данных аудиовизуальной речи на различных языках с аннотацией и временной разметкой данных. 4) Новое и усовершенствованное программное обеспечение интегральной системы распознавания аудиовизуальной речи, включающее комплекс программ для ЭВМ на языках высокого уровня. 5) Результаты экспериментальных исследований интегральной системы распознавания аудиовизуальной речи с использованием подготовленных речевых корпусов. Данные результаты будут соответствовать передовому мировому уровню и в определенных аспектах его превосходить. 6) Подготовка и издание цикла научных публикаций (не менее 4 опубликованных статей в 2021-2023 гг.) по результатам работ в международных и российских журналах и трудах ведущих международных конференций по данной тематике, индексируемых в Web of Science/Scopus/РИНЦ, а также государственная регистрация РИД в Роспатенте. Таким образом, в ходе данного проекта будет впервые получен ряд принципиально новых научно-технических результатов по автоматическому распознаванию аудиовизуальной речи, которые соответствуют передовому мировому уровню. Применение разрабатываемой интегральной системы аудиовизуального распознавания речи в ближайшем будущем даст возможность пользователям осуществлять эффективный вербальный диалог с информационно-справочными системами массового обслуживания. Актуально применение системы аудиовизуального распознавания речи в интеллектуальных информационных киосках, которые, как правило, устанавливаются в довольно многолюдны местах (вестибюлях, залах и т.д.), где невозможно соблюдать хорошие акустические условия. В окружающей обстановке с низким отношением аудиосигнал/шум визуальное распознавание речи позволит сохранить высокую точность распознавания слов и фраз. Интегральные системы распознавания речи имеют меньшее число компонент по сравнению со стандартными системами, в следствие чего демонстрируют более высокую скорость обучения и декодирования, а также меньший объем требуемой памяти. Поэтому такие модели возможно использовать на мобильных устройствах локально, без вычислений на удаленных серверах. При этом точность распознавания интегральных систем сравнима с точностью, получаемой в стандартных системах распознавания речи.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2021 году
В соответствии с заявленным планом работ на первом этапе проекта был выполнен (1) аналитический обзор современного состояния предметной области. Были рассмотрены три основных направления: автоматическое распознавание речи по аудиоинформации, автоматическое распознавание речи по видеоинформации (чтение речи по губам), и методы объединения аудиовизуальной информации. Проведенный комплексный обзор включает в себя анализ более 50-ти современных научных публикаций за последние 7 лет. Были выявлены основные тренды по каждому из направлений и определены перспективные методы и модели, которое будут исследоваться в ходе проекта. На сегодняшний день, представленный аналитический обзор является наиболее полным и не имеющим аналогов в научной литературе применительно к распознаванию аудиовизуальной речи. Наряду с этим был осуществлен (2) сбор, анализ и обработка доступного информационно-лингвистического обеспечения (аудиовизуальных речевых баз данных на разных языках). Всего было проанализировано 48 баз данных, имеющихся в открытом доступе/упоминающихся в научных публикациях. Стоит отметить, что это практически все (!) имеющиеся в открытом доступе базы данных аудиовизуальной речи на сегодняшний день и наиболее полный их список, встречающийся в научной литературе. По сравнению с тысячами баз данных, имеющимися в наличии для распознавания акустической речи, количество аудиовизуальных баз данных критически мало. Большинство из упомянутых баз данных аудиовизуальной речи появились за последние 7 лет и подавляющее их количество включает в себя записи английской речи. Для других языков, кроме английского и, частично, китайского, аудиовизуальных речевых баз данных практически не существует. Учитывая вышеизложенное, в рамках проекта было (3) усовершенствовано существующее и разработано новое математическое обеспечение для системы интегрального распознавания речи по аудио- и видеоинформации. Ключевой особенностью предложенной интегральной модели является объединение и адаптация наилучших известных решений из таких областей как компьютерное зрение, распознавание образов, автоматическое распознавание речи, применительно к задаче распознавания аудиовизуальной речи. Основываясь на усовершенствованном математическом обеспечении, была (4) разработана базовая версия интегральной системы автоматического распознавания речи на базе глубоких нейронных сетей. Предложенные нейросетевые архитектуры моделей распознавания и система в целом были протестированы на эталонной базе данных английской речи LRW, где показали наилучшую на сегодняшний день точность распознавания речи по видеоинформации 88.7%, превзойдя все имеющиеся аналоги. Об этом в 2022 году будет доложено на 30-й Европейской конференции по обработке сигналов (Eusipco 2022), входящей в перечень «Top computer science conferences». Можно выделить 8 основных особенностей разработанной интегральной системы распознавания аудиовизуальной речи, которые позволили добиться лучших в мире результатов распознавания на сегодняшний день: (а) для нахождения начала и конца речи используется детектор речевой активности Vosk. Это дает возможность избавиться от начальной и конечной тишины (когда она есть), (б) для поиска области рта используется алгоритм на основе MediaPipe, по сути представляющий собой активную модель внешнего вида, состоящую из 468 лицевых точек и позволяющую детектировать область рта с высокой степенью точности при угле поворота до 30-ти градусов, (в) предобработка включает несколько этапов: все входные изображения преобразуются в градации серого, затем нормализуются, после чего к ним применяется выравнивание гистограммы изображения, (г) для уменьшения переобучения и внесения меньшей уверенности в прогнозах к изображениям применялась техника аугментации данных MixUp с вероятностью 40%. Коэффициент объединения двух изображений варьировался от 30 до 70%, (д) для меток тех изображений, к которым не применялся MixUp, было применено их сглаживание (Label Smoothing), (е) для извлечения признаков использовалась модифицированная нейросеть 3DResNet-18 с добавлением модуля Squeeze-and-Attention, (ж) В заключении извлеченные признаки подавались на 2 слоя BiLSTM по 512 нейронов в каждом. Выходом первого слоя BiLSTM является sequence-to-sequence. Выходом второго слоя BiLSTM является sequence-to-one, (з) В процессе обучения использовалась техника планировщика скорости обучения - косинусный отжиг. По результатам этапа проекта (5) опубликован цикл из 4-х научных статей индексируемых в базах данных Web of Science и/или Scopus: «Development of Visual and Audio Speech Recognition Systems Using Deep Neural Networks», «End-to-end Visual Speech Recognition for Human-Robot Interaction», «RUSAVIC Corpus: Russian Audio-Visual Speech in Cars», «Visual Speech Recognition in a Driver Assistance System». Достигнутые на первом этапе результаты РНФ проекта представлялись на двух международных конференциях: 1) 31st International Conference on Computer Graphics and Machine Vision «GraphiCon-2021», September 27-30, 2021, 2) XVII International Conference on Electromechanics and Robotics, April 12-14, 2022. Также имеются принятые статьи на 2 международные конференции, выступления на которых пройдут в 2022 году: 3) 13th International Conference on Language Resources and Evaluation, LREC 2022, June 20-25, France и 4) 30th European Signal Processing Conference, EUSIPCO 2022, Aug. 29 - Sep. 2, Serbia. При этом конференции LREC и EUROSIPCO относятся к листингу "Top Computer Science Conferences" международного портала https://research.com/. Достигнутые результаты автоматического распознавания речи по губам диктора превосходят все существующие аналоги не только для русской, но и для английской речи. Все выполненные работы и полученные научные результаты полностью соответствуют цели и перевыполняют заявленные задачи проекта РНФ.

 

Публикации

1. Иванько Д.В., Рюмин Д.А. Development of Visual and Audio Speech Recognition Systems Using Deep Neural Networks CEUR Workshop Proceedings. GraphiCon 2021: 31th International Conference on Computer Graphics and Vision, vol. 3027, pp. 905-916 (год публикации - 2021) https://doi.org/10.20948/graphicon-2021-3027-905-916

2. Иванько Д.В., Рюмин Д.А., Аксенов А.А., Кашевник А.М., Карпов А.А. RUSAVIC Corpus: Russian Audio-Visual Speech in Cars LREC:13th Language Resources and Evaluation Conference., - (год публикации - 2022)

3. Иванько Д.В., Рюмин Д.А., Кашевник А.М., Аксенов А.А., Карпов А.А. Visual Speech Recognition in a Driver Assistance System EUSIPCO 2022: 30th European Signal Processing Conference, - (год публикации - 2022)

4. Иванько Д.В., Рюмин Д.А., Маркитантов М.В. End-to-end Visual Speech Recognition for Human-Robot Interaction AIP Conference Proceedings, - (год публикации - 2022)


Аннотация результатов, полученных в 2022 году
В 2022-23 годах был выполнен 2-ой (заключительный) этап проекта РНФ, связанный с разработкой программного обеспечения, тестированием и количественным оцениванием разработанной интегральной системы распознавания аудиовизуальной речи, а также обобщением полученных результатов. В соответствии с заявленным планом работ на втором этапе проекта были получены следующие основные результаты: (1) Разработан и отлажен комплекс программного обеспечения, составляющий интегральную систему распознавания аудиовизуальной речи, Произведена регистрация программы для ЭВМ в Федеральной службе по интеллектуальной собственности (ФИПС Роспатента): «Интегральная система распознавания аудиовизуальной речи с использованием глубоких нейронных сетей», свидетельство о государственной регистрации №2022684534 от 15.12.2022. Представленная система комплексирует разработанное на первом этапе выполнения проекта математическое обеспечение (усовершенствованные существующие и новые модели, методы, алгоритмы) и их реализацию (с использованием программных инструментариев и средств математического моделирования) для задачи аудиовизуального распознавания русской речи путем объединения в единый комплекс программного обеспечения. (2) Проведены экспериментальные исследования с применением глубоких нейронных сетей различной архитектуры. С точки зрения распознавания аудиовизуальной речи по видеоинформации наибольшей точности распознавания удалось добиться, используя ядро из трехмерной сверточной сети 3DCNN в совокупности с двунаправленной рекуррентной нейросетью с долгой кратковременной памятью BiLSTM. Наилучшие результаты показало использование архитектуры 3DResNet-18 для выделения информативных признаков. Это позволило добиться точности распознавания речи только по видео модальности в 88.7%. С точки зрения распознавания речи по аудиоинформации, наибольшую точность распознавания удалось получить с использованием 2D CNN архитектуру, используя предобученную нейросеть VGG. Наилучшая точность распознавания речи по аудио составила 95.36%. Наилучшие результаты по аудиовизуальному распознаванию речи были получены с использованием вышеупомянутых архитектур в комбинации с объединением модальностей на уровне моделей и показали результат в 98.76% являясь наивысшей точностью распознавания речи, достигнутой на сегодняшней день на эталонной базе данных LRW. Более подробно с описанием предложенной аудиовизуальной методологии и результатами экспериментальных исследований можно ознакомиться в опубликованных работах «Visual Speech Recognition in a Driver Assistance System» и «Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices». (3) Исследовано влияние различных техник увеличения точности, тонкой настройки параметров и методов аугментации на точность распознавания аудиовизуальной речи. Исследование различных планировщиков скорости обучения показало явное преимущество косинусного отжига, как для аудио, так и для видео подсистем распознавания. Наилучший оптимизатор однозначно выявить не удалось, т.к. Adam показывает себя лучше на видеоданных и в целом стабильнее, но максимальный результат на аудиоданных был получен с использованием оптимизатора SGD. Эксперименты с размерностью входных данных показали что для базы LRW и подобных оптимальный размер входного изображения 44х44х3, с размером батча равным 2 или 4, что связано с тем, что большинство изображений губ не превышают размер более 50 пикселей. Сравнение методов нормализации входных изображений показало явное преимущество заполнения недостающих пикселей средними значениями. Исследование различных методов аугментации показало состоятельность использования MixUp, Label smoothing (Сглаживания меток) и Affine transformations (Афинных преобразований) для увеличения количества обучающих аудио- и видеоданных. Следует отметить, что аугментация с помощью SpecAugment по частоте (freq mask) не приводит к увеличению точности распознавания речи по аудио. Полученные в рамках результаты по распознаванию визуальной и аудиовизуальной речи на момент публикации являлись лучшими в мире, что доказывает состоятельность проведенных экспериментальных исследований по выбору как оптимальной нейросетевой архитектуры, так и по тонкой настройке и подбору параметров. (4) Произведено тестирование разработанной интегральной системы на задаче распознавания аудиовизуальной речи. Представлены результаты тестирования разработанной интегральной системы на задаче распознавания аудиовизуальной речи в натурных условиях применения, т.е. в условиях приближенных к реальным условиям применения, когда аудиовизуальные данные получаются напрямую с микрофона и видеокамеры (вебкамеры персонального компьютера в проведенных экспериментах). (5) Произведен анализ и обобщение полученных в ходе проекта результатов. Проведенные исследования и экспериментальные результаты однозначно показывают, что комплексирование (объединение) информации из аудио- и видеомодальностей значительно повышают точность распознавания речи, особенно в акустически шумных условиях, а применение предложенных архитектур и методов на основе глубоких нейронных сетей позволяет еще больше повысить эффективность распознавания речи. По результатам второго этапа проекта (6) опубликован цикл из 2-х научных статей индексируемых в базах данных Web of Science и/или Scopus. В том числе одной статьи входящей в первый квартиль (Q1): «Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices» и «Improved automatic lip-reading based on the evaluation of intensity level of speaker’s emotion». Достигнутые на втором этапе результаты РНФ проекта представлялись на трех международных конференциях: 1) 13th International Conference on Language Resources and Evaluation, LREC 2022, June 20-25, Франция и 2) 30th European Signal Processing Conference, EUSIPCO 2022, Aug. 29 - Sep. 2, Сербия, 3) International Workshop Photogrammetric techniques for environmental and infrastructure monitoring, Biometry and Biomedicine (ISPRS PSBB), 24-26 апреля 2023, Россия. При этом конференции LREC и EUROSIPCO относятся к листингу "Top Computer Science Conferences" международного портала https://research.com/. Достигнутые результаты автоматического распознавания речи по губам диктора превосходят все существующие аналоги не только для русской, но и для английской речи. Кроме того, результаты данного проекта РНФ активно освещались в СМИ. (1) Пресс-релиз СПБ ФИЦ РАН: https://www.ras.ru/news/shownews.aspx?id=38bb0cb7-afd2-416a-9ac6-24aa9393dd52#content, (2) Известия: https://iz.ru/1496149/denis-gritcenko/poniat-na-slove-rossiiskie-spetcialisty-nauchili-smartfon-chitat-po-gubam , (3) ТАСС: https://nauka.tass.ru/nauka/17498723 , (4) РИА Новости: https://ria.ru/20230411/neyroset-1864579971.html , (5) РБК: https://www.rbc.ru/life/news/643655bb9a79478bfe7fce31 и еще в около 40-ка новостных изданиях. Все выполненные работы и полученные научные результаты полностью соответствуют цели и заявленным задачам проекта РНФ.

 

Публикации

1. Иванько Денис, Рюмина Елена, Рюмин Дмитрий IMPROVED AUTOMATIC LIP-READING BASED ON THE EVALUATION OF INTENSITY LEVEL OF SPEAKER’S EMOTION The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, volume XLVIII-4/W3-2023 (год публикации - 2023)

2. Рюмин Дмитрий, Иванько Денис, Рюмина Елена Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices MDPI Sensors, Т. 23. – №. 4. – С. 2284. (год публикации - 2023) https://doi.org/10.3390/s23042284

3. Иванько Д.В. ИНТЕГРАЛЬНАЯ СИСТЕМА РАСПОЗНАВАНИЯ АУДИОВИЗУАЛЬНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ -, 2022684534 (год публикации - )

4. - В СПб ФИЦ РАН обучили нейросеть «читать по губам» для повышения точности распознавания речи Пресс-служба Спб ФИЦ РАН, Исследование поддержано грантом РНФ (№ 21-71-00132). (год публикации - )


Возможность практического использования результатов
Компьютерные системы автоматического распознавания аудиовизуальной речи имеют широкое практическое применение в социальной сфере и экономике как в качестве самостоятельных программных продуктов, так и в качестве вспомогательных технологий, встраиваемых в различные интеллектуальные комплексы автоматической обработки звучащей и видимой речи человека. Подобные системы автоматического распознавания речи уже начинают применяться в качестве средств человеко-машинного взаимодействия в информационных киосках, устанавливаемых в людных местах, вестибюлях торговых центров, вокзалов, аэропортов, медицинских учреждений. Наряду с этим, системы аудиовизуального распознавания речи находят применение в ассистивных системах помощи водителю транспортного средства, системах удаленного управления компьютером или роботом. В месте с этим, применение подобных интегральных систем является эффективным решением для аудиовизуального распознавания речи клиентов, и операторов в контакт-центрах, сервисных и многофункциональных центрах, банках, банкоматах, местах обслуживания населения, в которых объем поступающей информации не всегда позволяет обрабатывать запросы вручную. Интегральные системы автоматического распознавания аудиовизуальной речи могут быть использованы в биометрических технологиях идентификации и верификации пользователей. Подобные системы актуальны при построении диалоговых систем и голосовых помощников. Системы автоматического распознавания аудиовизуальной речи также могут использоваться в качестве составной части голосовых помощников для систем «умного дома» или систем виртуальной/дополненной реальности, позволяя точнее распознавать речевые запросы пользователя и осуществлять эффективное человеко-машинное взаимодействие. Применение таких систем поможет улучшить взаимодействие машины и сразу с несколькими пользователями, что является необходимой частью как технологий «умного дома», так и технологий других интеллектуальных пространств, в том числе, рабочих переговорных комнат, предполагающих общение нескольких людей и машин. Разработанная в рамках проекта РНФ интегральная система автоматического распознавания аудиовизуальной речи на основе глубоких нейронных сетей позволит продвинуть современные достижения в области искусственного интеллекта на новый уровень, предоставляя естественное человеко-машинное взаимодействие с высокой точностью распознавания речи, доступное широкому кругу пользователей. Таким образом, полученные в проекте научно-технические результаты вносят существенный вклад в решение задач из Стратегии НТР РФ, особенно в таком направлении как: «Переход к передовым цифровым, интеллектуальным производственным технологиям, роботизированным системам, новым материалам и способам конструирования, создание систем обработки больших объемов данных, машинного обучения и искусственного интеллекта».