КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 17-71-20072
НазваниеНейробайесовские методы в задачах машинного обучения, масштабируемой оптимизации и компьютерного зрения
Руководитель Ветров Дмитрий Петрович, Кандидат физико-математических наук
Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики" , г Москва
Конкурс №24 - Конкурс 2017 года по мероприятию «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-202 - Интеллектуальный анализ данных и распознавание образов
Ключевые слова глубинное обучение, байесовские методы, большие данные, стохастическая оптимизация, генеративные модели, машинное обучение
Код ГРНТИ28.23.37
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Проект направлен на разработку методов машинного обучения, сочетающих две наиболее
успешные на сегодняшний день парадигмы – вероятностное (Байесовское) моделирование и глубинное (глубокое) обучение. В рамках первого направления удалось существеннно расширить круг задач, решающийся с помощью методов машинного обучения. В частности, на вероятностных принципах работают наиболее успешные алгоритмы сегментации изображений, коллаборативной фильтрации, тематического моделирования, и пр. К достоинствам Байесовского подхода при построении моделей обработки данных относятся: (1) возможность построения сложных моделей из простых, благодаря использованию результата Байесовского вывода (апостериорного распределения на скрытые переменные) в одной модели, в качестве априорного распределения в другой модели и т.д.; (2) возможность обрабатывать данные «на лету», обновляя апостериорные распределения без сохранения самих данных, поступающих в потоковом режиме; (3) возможность работать с неполными и зашумленными разметками обучающей выборки. К недостаткам Байесовского подхода можно отнести необходимость, за редким исключением т.н. сопряженных распределений, проводить вычислительно трудоемкий и не слишком точный приближенный Байесовский вывод. В рамках второго направления удалось добиться настоящей революции в области машинного обучения в течение последних 5 лет. Глубинные нейронные сети оказались превосходным инструментом для решения стандартных задач машинного обучения по большим объемам данных. В настоящее время в мире активно ведутся исследования по их адаптации под более сложные задачи обучения, например, построения генеративных моделей.
В работах 2013-15гг впервые появляются работы, в которых делается попытка объединить два этих подхода и использовать нейронные сети для выполнения приближенного Байесовского вывода в сложных моделях обработки данных. Основной идеей является переход к т.н. вариационной нижней оценке (evidence lower bound) и ее оптимизация по весам нейронной сети. Первые результаты показывают, что такая технология существенно точнее существующих аналогов и гораздо лучше описывает распределение данных, что, потенциально, позволяет использовать такие нейронные сети для генерации объектов, создание которых традиционно считалось атрибутом высшей нервной деятельности (например, рисование картин, подделка почерка, сочинение текста, описывающего картину, перевод с одного языка на другой и др.).
В настоящее время конвергенция нейросетевого и Байесовского подходов стала одним из трендов развития современных методов машинного обучения. Актуальность этого направления подтверждается шквалом работ в 2015-17гг и все более интересными результатами, полученными на стыке этих направлений (механизм внимания, вариационные автокодировщики, вариационный дропаут, нормализационные потоки и др.).
Целью настоящего проекта является дальнейшая разработка математического аппарата и
алгоритмических средств для комбинированного нейро-байесовского подхода к машинному обучению, который бы позволил проводить настройку параметров и вероятностный вывод более эффективно и, соответственно, расширил бы область применимости этого подхода. В ходе проекта предполагается существенно использовать уникальный задел, созданный в научной группе сразу в нескольких областях: Байесовском моделировании, глубинном обучении, стохастической оптимизации. Значительная часть исследований будет опираться на результаты 2015-17гг, полученные в мире.
В рамках развития математического аппарата предполагается разработка новых математических моделей, позволяющих более экономно расходовать ресурсы компьютера при использовании нейронных сетей. Это крайне актуальное направление связано с трудностями, которые возникают при попытке перенести современные нейросетевые архитектуры на мобильные устройства, а также при необходимости вести обработку данных, поступающих в режиме реального времени. Основными ограничительными факторами являются требования по памяти, требования по скорости обучения и требования по скорости обработки новых объектов.
Первую проблему предполагается решить на основе технологии вариационного дропаута, представляющей собой особый вид байесовской регуляризации нейронной сети. В процессе вариационного вывода апостериорное распределение большинства весов нейросети (до 99.9%) вырождается в дельта-функцию в нуле, что эквивалентно исключению таких весов из модели. При этом точность работы сети на валидации не снижается. Фактически, разработанная в 2017г участниками проекта технология обеспечивает устранение избыточности современных нейросетевых архитектур. Это открывает широкие возможности для их более компактного представления, требующего в десятки раз меньше памяти.
Для решения второй проблемы предполагается использовать специальным образом обученную отдельную нейросеть, которая способна подобрать параметры для обучения базовой нейронной сети, путем учета специфики возникающего функционала качества. В случае успеха, такой подход может стать доминирующим в глубинном обучении, т.к. даже наиболее продвинутые методы стохастической оптимизации, разработанные в 2015-16гг и используемые для обучения нейронных сетей в настоящее время, очень мало учитывают специфику конкретной задачи и конкретной настраиваемой под нее нейросетевой архитектуры. Результаты, полученные как в научной группе, так и зарубежными коллегами в течение последних 6 месяцев, позволяют сделать вывод о принципиальной возможности такого подхода.
Третью задачу, являющуюся в краткосрочной перспективе наиболее востребованной в индустрии, планируется решить разработкой технологии группового вариационного дропаута, обеспечивающего удаление не отдельных весов, а нейронов и отдельных фильтров в сверточных слоях сверточных нейросетей; а также технологии пространственно-адаптивного времени вычислений, которую предполагается сформулировать в виде задачи байесовского вывода в модели с дискретными латентными переменными.
Помимо этого, в ходе проекта планируется разработать новые, альтернативные классическим вариационным (то есть, использующие отличные от evidence lower bound (ELBO) нижние оценки), модели приближенного байесовского вывода, версию вариационного дропаута для рекуррентных сетей, байесовскую модель для адаптации уже обученной нейронной сети на новые данные и новые задачи, масштабируемую модель гауссовских процессов в задачах машинного обучения. Разработанные в ходе проекта технологии предполаагется применить для улучшения качества нескольких генеративных нейросетевых моделей, а также для генерирования синтетических объектов, призванных расширить объем обучающей выборки в задачах компьютерного зрения.
ОТЧЁТНЫЕ МАТЕРИАЛЫ