КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 22-18-00660

НазваниеИсследование нейровычислительных механизмов сенсорной пластичности в слуховой коре в контексте принятия монетарных решений

РуководительМоисеева Виктория Владимировна, Кандидат биологических наук

Прежний руководитель Ключарев Василий Андреевич, дата замены: 31.03.2023

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ 2022 г. - 2024 г. 

Конкурс№68 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-552 - Психофизиология, психогенетика, сравнительная психология, зоопсихология, эволюционная психология

Ключевые словапринятие решений, сенсорная пластичность, вычислительное моделирование, обучение с подкреплением

Код ГРНТИ34.39.23


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Одной из основных задач дисциплины нейробиологии принятия решений, динамично развивающейся в настоящее время, является изучение механизмов образования ассоциации стимул-подкрепление, в том числе, анализ динамики такого научения и его влияния на поведение и физиологические ответы человека или животного. Решению этой задачи посвящено множество научных работ, в большинстве из которых фокусом исследования являются изменения в областях мозга, напрямую связанных с обработкой подкрепления, системой обработки ошибок и результата действия (напр., Rescorla and Wagner, 1972; Holroyd and Coles, 2002). Исследования показали важную роль дофаминергических нейронов на стадии принятия решений (Schultz, 2006) и в ходе развития поведенческих адаптаций (Bromberg-Martin et al., 2010). С другой стороны, многочисленные когнитивные исследования продемонстрировали вызванную опытом и повторяющимся поведением пластичность в сенсорной коре человека (Shuler & Bear 2006, Seferences 2008; Vickery et al. 2011; Alexandrov et al., 2007). Однако в классических моделях принятия решений до сих пор не учитываются возможные изменения восприятия репрезентаций на уровне сенсорного входа, связанные с обучением с подкреплением (Rangel et al., 2008). Последние исследования, тем не менее, подтверждают важность учета изменений, вызванных обучением ассоциации стимул-подкрепление, в областях мозга, участвующих в обработке информации о вознаграждении, например, в сенсорной коре (Thomas et al., 2013, Persichetti et al., 2015). Такие пластические изменения в восприятии стимула как следствие изменения его ценности в результате появившейся связи с подкреплением могут приводить, например, к увеличению или снижению чувствительности к нему и прямо влиять на поведение субъекта в дальнейшем. В индустрии азартных игр используется масса стимулов, в том числе звуковых эффектов, которые кодируют различные виды подкрепления (например, многообразие звукового сопровождения в игровых автоматах исчисляется сотнями эффектов, Rivlin et al., 2004). Наша научная группа ранее провела серию исследований в данной области, в которых изучила механизмы нейропластичности слухового восприятия в головном мозге человека (Krugliakova et al., 2018; Krugliakova et al., 2019, Gorin et al., in revision). В этих экспериментах для построения ассоциации стимул-подкреплении мы использовали широко распространенную и хорошо известную игру на отложенное денежное подкрепление (monetary incentive delay task, MID-задача), которую модифицировали, заменив визуальные подсказки на звуковые. Для оценки пластических изменений мы выбрали так называемую oddball задачу, в которой провоцируется появление компонента негативности рассогласования, являющегося коррелятом пластических изменений в слуховой коре. Нам удалось показать, что двухдневное обучение в ходе MID-задачи вызвало увеличение компонента P3a (по сравнению с базовым условием) в ответ на стимулы, кодирующие вознаграждение, что указывает на усиление непроизвольного внимания к данным стимулам. Более того, изменение MMN, вызванное тренировкой в MID-задаче, коррелировало с амплитудой записанного во время сеанса MID-задачи FRN (компонента, связанного с восприятием негативного результата действия, который отражает снижение дофаминергической активности, приводящее к ингибированию передней поясной извилины коры головного мозга, что вызывает сигнал «ошибки предсказания вознаграждения» (Hajihosseini and Holroyd, 2013; Holroyd and Coles, 2002)). Данные результаты позволяют сделать предположение о том, что MID-задача вызывает нейропластические изменения в слуховой системе. Данные изменения связаны с лучшим неосознанным распознаванием стимулов, кодирующих вознаграждение, а также с усилением непроизвольного переключения внимания на эти сигналы. Полученные нами данные позволили предположить, что сенсорная обработка слуховых стимулов, кодирующих вознаграждение, динамически модулируется результатами предыдущих действий (Krugliakova et al., 2019; Gorin et al., 2020). Тем не менее, мы установили, что выраженность пластических изменений по измерениям негативности рассогласования (НР) (англ. mismatch negativity, MMN (Naatanen et al., 1997) коррелировала с чувствительностью FRN к магнитуде подкрепления. Это может свидетельствовать о том, что динамика обучения ассоциациям, выраженная в электрофизиологическом ответе, может являться предиктором степени пластических изменений в сенсорной коре. Несмотря на ряд достоинств использованной парадигмы, нельзя утверждать, что она в полной мере подразумевает оперантное научение, так как респондент обладал только одним вариантом совершаемого действия, вне зависимости от стимула (Knutson et al., 2000, 2005; Richards et al., 2013). Более того, в MID-задаче практически невозможно оценить правильность выполнения задания, в то время как информация о правильном и неправильном выборе необходима для моделирования обучения, основанного на вознаграждении. Таким образом, информация об индивидуальном обучении, которую можно получить по результатам MID-задачи, является очень ограниченной. В то же время данные об индивидуальной динамике обучения являются важным поведенческим маркером, который позволил бы установить взаимосвязь между изменениями в вызванных ответах мозга и скоростью появления устойчивого двигательного паттерна в ответ на определенный стимул. Для того чтобы обогатить репертуар инструментального обучения и проверить гипотезу о связи динамики обучения с выраженностью пластических изменений в сенсорной коре, мы планируем разработать новую парадигму, включающую монетарную игру, в которой будут однозначно сопоставлены стимул и необходимое действие, а также будет включено как негативное, так и положительное подкрепление. В результате мы ожидаем, что степень выраженности пластических изменений увеличится, так как активная дискриминация стимулов будет критически важна для успешности выполнения заданий. Игровая форма поможет повысить вовлеченность испытуемого в выполнение задачи. На первом этапе проекта мы разработаем новую звуковую версию экспериментальной задачи, представляющей собой вариант лотереи по типу игры в однорукого бандита, предполагающей наличие активного выбора (англ., two-armed bandit task, Behrens et al., 2007). Участники будут выбирать между двумя решениями с разными ожидаемыми ценностями, закодированными с помощью звуковых сигналов. Такой подход позволит изучить динамику поведенческого аспекта ОП-обучения. Использование данной задачи, являющейся модификацией т.н. «однорукого бандита», позволит использовать математическое моделирование ОП-обучения и оценить индивидуальные параметры обучения. В простейшем случае ОП-параметрами для каждого испытуемого будут скорость обучения и степень случайности выбора (англ., learning rate и choice randomness, соответственно). Кроме того, мы планируем построить модель, которая свяжет динамику изменения компонентов ВП в ответ на обратную связь о результате пробы и пластические изменения в компонентах MMN и пассивного внимания P3a. Дополнительно мы планируем изучить связь особенностей паттерна осцилляторной активности покоя и обучения, выраженного как в поведении, так и в динамике вызванных ответов мозга. В предыдущих работах по исследованию нейропластичности, вызванной принятием решения в контексте денежного вознаграждения (как выигрышей так и проигрышей) (Krugliakova et al., 2019; Gorin et al. 2020), мы руководствовались классическими представлениями теории ожидаемой полезности/ценности (excpeted value, EV) о том, что величина и вероятность вознаграждения оптимальным образом интегрируются при выборе или выводе ценности принимаемой альтернативы (von Neumann and Morgenstern, 1947), а именно- мультиплицируются. Подобная стратегия умножения вероятности и величины вознаграждения носит названия OPT (от англ. optimal) модели. Однако, полученные нами результаты обнаружили не симметричные эффекты нейропластичности, вызванной MID-задачей, интерпретация которых согласно классическим представлением об ожидаемой ценности в виду отсутствия параметрической зависимости MMN от EV (Krugliakova et al., 2019; Gorin et al., 2020) В то же время, новейшие работы в области нейромоделирования предлагают альтернативную модель принятия решений на основании оценивания альтернатив -- аддитивную стратегию при расчете ценности опций выбора или т.н. модель MIX (Rouault et al., 2019). В последние несколько лет в сотрудничестве с ENS центром когнитивных нейронаук Этьена Кохлена ( Etienne Koechlin) (Париж, Франция) мы развили и протестировали теорию, согласно которой человек использует аддитивную (последовательную) субоптимальную стратегию при расчете ценности опций выбора из двух альтернатив (модель MIX), и противопоставили ее теориям превалирующим в поведенческой экономике: оптимальной мультипликативной стратегии и субъективной оценке ценностей. Исследование подтвердило превосходство аддитивной стратегии над MIX. Для проверки аддитивной теории мы провели поведенческое исследование, в котором мы манипулировали изменчивостью окружающей среды и представлением результатов в виде потерь / выигрышей. Данное исследование также было направлено на проверку способности модели MIX обнаруживать изменения в поведении человека в ответ на изменения в среде принятия решений. Результаты показали, что действительно эта аддитивная теория и полученное семейство моделей могут гибко и понятно объяснить динамику принятия решений человеком в изменяющейся и сложной среде при манипуляциях, включенных в эксперимент (Ghambaryan et al., 2021). Использования полученных нами MIX результатов для моделировании эффектов сенсорной пластичности, связанной с выполнением экономической задачи (например, модификации игры в "однорукого бандита" или MID) позволит с одной стороны, построить более полную модель обучения с подкреплением, включив в неё пластические изменения в активности сенсорной коры, вызванной денежным подкреплением. С другой стороны, расширить теоретические представления о механизмах принятия решений с точки зрения нейровычислительных механизмов, а именно применив MIX модель выбора к результатам измерений активности мозга. Таким образом, основываясь на полученных данных, мы сможем заполнить имеющийся на данный момент пробел в данной научной области. Выбранные методы и подходы представляются нам актуальными для данного исследования, так как являются развитием подхода, который продемонстрировал свою валидность при оценке пластических изменений вследствие ассоциации стимул-подкрепление, что подтверждается имеющимися публикациями. Установление роли пластических изменений в обучении с подкреплением и, особенно, моделирование таких изменений является важным шагом для более полного понимания процессов, стоящих за изменениями в поведении и принятии решений, связанных с денежным подкреплением.

Ожидаемые результаты
План данного исследования включает в себя проведение нескольких экспериментов и направлен на решение ряда задач. Первая задача заключается в подробном исследовании компонентов вызванных потенциалов мозга, связанных с обработкой обратной связи, и их чувствительности к типу обратной связи и магнитуде подкрепления. Вторая поставленная задача включает в себя определение особенностей пластических изменений в сенсорных областях коры головного мозга и их связи с поведением и работой мозга во время построения ассоциации стимул-подкрепление. В-третьих, мы планируем связать особенности паттерна осцилляторной активности покоя и индивидуальные характеристики обучения, выраженные как в поведенческих показателях, так и в динамике вызванных ответов мозга. Впервые мы объединим новую слуховую версию задачи “двурукий бандит” и oddball парадигму. Важнейшая особенность этой задачи заключается в том, что в отличие от предыдущей (MID) задачи, для лучшей адаптации, испытуемый окажется в ситуации дифференцированного обучения ожидаемой ценности альтернативы независимо для каждого денежного стимула во время совершения выбора между двумя альтернативами. Такая процедура позволит дифференцировать ОП (обучение с подкреплением, анг. reinforcement learning)-динамику для каждого денежного стимула в зависимости от его EV. В возможности дифференцирования динамики ОП для стимулов с разной ценностью/полезностью и заключается преимуществом нового подхода к поиску нейронных коррелятов ОП-динамики сенсорной пластичности. Мы также планируем использовать MIX модель для расчета ценности альтернатив и предсказания решений в финансовом контексте для расчета эффектов сенсорной пластичности, связанной с выполнением экономической задачи. Использование подходов математического моделирования, т.е. ОП-алгоритма обучения с подкреплением для задачи “двурукий бандит” позволит определить индивидуальную скорость обучения для каждого испытуемого. В простейшем случае моделируемыми параметрами для каждого испытуемого будут "скорость обучения" и "случайность выбора". Эти параметры (alpha и beta, соответственно), будут использоваться для расчета межиндивидуальных корреляций между оцененными скоростями обучения и нейрофизиологическими данными, такими как нейронные показатели нейропластичности. Таким образом, мы покажем связь между нейронными и поведенческими коррелятами обучения с подкреплением (RL) по механизму TD (temporal difference) и нейропластичностью (MMN, P3a и осцилляциями головного мозга). Использование ОП-методов обучения с подкреплением имеет значительное преимущество по сравнению с MID-задачей, так как в данном случае мы сможем учитывать поведенческий индекс индивидуальных различий в обучении. Кроме того, такой подход позволяет исследовать не только изменения в поведении, но и влияние вероятности вознаграждения на нейропластичность и открывает новые возможности для понимания взаимосвязи между нейропластичностью и обучением с подкреплением. Среди ожидаемых результатов исследования можно перечислить: получение новой достоверной информации о зависимости компонентов ВП, отражающих восприятие обратной связи, от её типа и магнитуды, что позволит внести вклад в решение актуальной на данный момент в литературе проблемы; построение первой в своём роде нейроэкономической модели, связывающей обучение с подкреплением на поведенческом уровне с пластическими изменениями вызванной электрической активности как во время участия в игре, так и в результате её прохождения; также мы планируем построить математическую модель, предсказывающую динамику обучения и пластических изменений, исходя из особенностей осцилляций покоя, что также послужит оригинальным научным результатом и может дать импульс к детальному изучению связи вызванной и осцилляторной активности мозга в ходе выполнения задач и в покое соответственно. Полученные результаты будут опубликованы в международных цитируемых изданиях. Интерес научного сообщества к рассматриваемым проблемам подтверждается успешными публикациями, которые наша группа сделала ранее. И, наконец, чтобы проверить причинно-следственную связь между нейронными кругами MMN и FRN, мы будем использовать транскраниальную стимуляцию постоянным током (tDCS) и / или транскраниальную магнитную стимуляцию (TMS). Используя эти методы активного нейровизуализации, мы будем возмущать соответствующие нейронные контуры височной и префронтальной областей, чтобы в дальнейшем раскрыть механизмы мозга, связывающие выбор, оценку и сенсорную. С точки зрения практического применения в социальной и экономической сферах, динамические характеристики обучения и их влияние на пластические изменения могут служить для лучшего понимания динамики обучения слуховой системы. Так, при формирования индивидуальной образовательной программы для поддержания высокого уровня вовлеченности ученика в учебный процесс, требуется поддерживать определенный уровень прогресса. В ряде работ было показано, что обучение новому языку быстро приводит к пластическим изменениям в активности слуховой коры. Однако, не понимая индивидуальных особенностей динамики пластических изменений данного ученика, невозможно определить момент начала данного процесса и невозможно оценить, какая длительность упражнений достаточна для максимально эффективного обучения, например, новым словам или звукам. Если предположить, что динамика обучения с подкреплением служит предиктором пластических изменений, то, используя предложенную модель, можно будет спрогнозировать, какая длительность упражнений необходима для данного индивидуума. Кроме того, успешность в таком исследовании послужит толчком к развитию нейротехнологических подходов к образованию, что в скором времени представляется критически важной технологией в свете ускоряющихся темпов роботизации и вынужденной смене специальности во множестве сфер, приводящей к непрерывному образованию всё более широких слоёв населения по всему миру.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2022 году
Современная нейробиология принятия решений, в частности нейроэкономика, изучает формирование связи стимул-подкрепление, в том числе в процессе обучения, а также влияние этих процессов на поведение человека. В центре внимания исследований находятся те области человеческого мозга, которые связаны с обработкой подкрепления, ассоциации стимул-подкрепление, ошибок предсказания вознаграждения и других результатов принятия решений (Rescorla and Wagner, 1972; Holroyd and Coles, 2002). Ряд исследований показал пластичность сенсорной коры человека, вызванную опытом и повторяющимся поведением (Shuler & Bear 2006, Vickery et al. 2011; Alexandrov et al., 2007). Такие изменения в коре приводят к изменениям в восприятии стимула, что ведет к изменениям в восприятии его ценности, чувствительности к стимулу и в конечном итоге влияет на поведение (Thomas et al., 2013; Persichetti et al., 2015). При этом, однако, классические модели принятия решений все еще не учитывают влияние возможного изменения репрезентации стимулов, связанного с обучением с подкреплением (Rangel et al., 2008). Широко используемая в исследованиях принятия решений на основании оценки ценности стимула для получения награды или избегания проигрыша, т.н. игра на отложенное денежное вознаграждение (англ. Monetary incentive delay task, или MID-задача) имеет ряд ограничений для исследования нейропластичности, возникающей вследствие обучения ассоциировать награду с подсказкой и дифференцировать ее в зависимости от ценности, которую она представляет. Для исследование нейровычислительных механизмов сенсорной пластичности в слуховой коре в контексте принятия монетарных решений, мы разработали 9 оригинальных модификаций аудио-парадигмы "двурукий бандит" и отобрали наиболее оптимальную, которая позволяет моделировать ситуацию дифференцированного обучения ожидаемой ценности альтернативы независимо для каждого денежного стимула во время совершения выбора между двумя альтернативами. В возможности дифференцирования динамики ОП для стимулов с разной ценностью/полезностью и заключается преимуществом нового подхода к поиску нейронных коррелятов ОП-динамики сенсорной пластичности. Мы провели поведенческое и электрофизиологическое пилотирование разработанной экспериментальной задачи. Одновременно, мы подробно изучили механизмы влияния tDCS- инструмента, который мы планируем далее использовать для выявления причинно-следственных взаимодействий в нейросетях, обеспечивающих нейропластические изменения, связанные с денежными вознаграждениям, применив электрическую стимуляцию к анализу стимулов-подсказок и обратной связи в ответ на проигрыш. Мы также проанализировали весь спектр нейрофизиологических откликов в ответ на потерю денежного вознаграждения разной величины и остановились на ВП комплексе N1-P2 мозговых откликов для анализа каузальных взаимодействий нейросетей, отвечающих за генерацию ошибки предсказания и сенсорную пластичность. Результаты анализа tDCS данных были опубликованы в виде тезисов на международной конференции “Четвертая международная конференция «Нейротехнологии и нейроинтерфейсы» (CNN 2022), сборник которых является индексируемым изданием.

 

Публикации

1. Григорьева А., Горин А., Ключников В., Шестакова А. Ambiguous tDCS: variability of the brain response to transcranial direct current stimulation in reinforcement learning task Proceedings - 4th International Conference "Neurotechnologies and Neurointerfaces", CNN 2022, Proceedings - 4th International Conference "Neurotechnologies and Neurointerfaces", CNN 2022 с. 41-45 (год публикации - 2022) https://doi.org/10.1109/CNN56452.2022.9912454


Аннотация результатов, полученных в 2023 году
Современная нейробиология принятия решений, в частности нейроэкономика, изучает формирование связи стимул-подкрепление, в том числе в процессе обучения, а также влияние этих процессов на поведение человека. В центре внимания исследований находятся те области человеческого мозга, которые связаны с обработкой подкрепления, ассоциации стимул-подкрепление, ошибок предсказания. В рамках нашего исследования мы реализовали несколько направлений проекта, связанных с обучением, основанном на вознаграждении. 1. Мы исследовали нейровычислительные механизмы сенсорной пластичности в слуховой коре в контексте принятия монетарных решений с использованием ЭЭГ и магнитоэнцефалографии (МЭГ). Мы использовали экспериментальную задачу “двурукий бандит” с звуковыми стимулами. Цель исследования – понять поведенческую динамику обучения с подкреплением и оценить индивидуальные параметры обучения с помощью вычислительного моделирования. Роль внимания в изменениях потенциала негативности рассогласования изучалась с помощью парадигмы oddball-задачи. Результаты дисперсионного анализа свидетельствуют о значимости различий компонента P3a в разных блоках заданий и между малыми и большими потерями. 2. Мы изучили принятие моторных решений в непредсказуемой среде. Исследование проводилось с использованием МЭГ. Анализ поведенческих данных был осуществлен при помощи иерархического байесовского моделирования. В результате мы показали, что ожидание большего вознаграждения приводит к соответствующему улучшению моторных показателей (скорость, точность). 3. Мы оценивали влияние музыкальных и денежных вознаграждений на принятие решений с помощью вычислительного моделирования и иерархических моделей. В исследовании изучалась стохастическая природа принятия решений в ответ на абстрактное вознаграждение и выяснялось, вызывает ли абстрактная природа музыкального удовольствия более стохастический выбор, чем обычные денежные стимулы. Использовались две вероятностные задачи обучения на основе бинарного вознаграждения, адаптированные из динамической парадигмы "однорукий бандит". Исследование не выявило существенных различий в стратегиях принятия решений между участниками, реагирующими на денежное и музыкальное вознаграждение. 4. Мы исследовали адаптивное обучение при стратегической и структурной неопределенности на примере аукционных игр. Для этой части проекта нами была использована экспериментальная задача в виде компьютеризированной игры с двойным аукционом, где участники играли роль трейдеров. Анализ ставок в первом раунде показал, что участники адаптировали первоначальные стратегии на основе доступности информации. Полученные результаты пролили свет на то, как отдельные лица адаптируют свои торговые стратегии в сценариях аукционов, подчеркивая сложное взаимодействие структурных и стратегических неопределенностей при формировании процесса принятия экономических решений.

 

Публикации

1. Григорьева А., Кондратенко А., Горин А., Шестакова А.Н. Context-Dependent P2 Plasticity Dynamics in the Monetary Incentive Delay Task 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN) IEEExplore, 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN), pp. 23-27 (год публикации - 2023) https://doi.org/10.1109/CNN59923.2023.10275169

2. Иванова М.Д., Германова К., Петелин Д., Рагимова А., Эррохо-Руиз А. Decision making, belief updating and motor performance in bipolar disorder: an MEG study 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN), 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN), pp. 27-29 (год публикации - 2023) https://doi.org/10.1109/CNN59923.2023.10275288

3. Рыбина Е., Колозио М., Шестакова А.Н., Ключарев В.А. Neuromodulation of choice-induced preference changes: the tDCS study of cognitive dissonance Frontiers in Psychology, Frontiers in Psychology, 14, 1104410 (год публикации - 2023) https://doi.org/10.3389/fpsyg.2023.1104410