Исследование нейровычислительных механизмов сенсорной пластичности в слуховой коре в контексте принятия монетарных решений

КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер проекта 22-18-00660

НазваниеИсследование нейровычислительных механизмов сенсорной пластичности в слуховой коре в контексте принятия монетарных решений

Руководитель Моисеева Виктория Владимировна, Кандидат биологических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики" , г Москва

Конкурс №68 - Конкурс 2022 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки; 08-552 - Психофизиология, психогенетика, сравнительная психология, зоопсихология, эволюционная психология

Ключевые слова принятие решений, сенсорная пластичность, вычислительное моделирование, обучение с подкреплением

Код ГРНТИ34.39.23

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Одной из основных задач дисциплины нейробиологии принятия решений, динамично развивающейся в настоящее время, является изучение механизмов образования ассоциации стимул-подкрепление, в том числе, анализ динамики такого научения и его влияния на поведение и физиологические ответы человека или животного. Решению этой задачи посвящено множество научных работ, в большинстве из которых фокусом исследования являются изменения в областях мозга, напрямую связанных с обработкой подкрепления, системой обработки ошибок и результата действия (напр., Rescorla and Wagner, 1972; Holroyd and Coles, 2002). Исследования показали важную роль дофаминергических нейронов на стадии принятия решений (Schultz, 2006) и в ходе развития поведенческих адаптаций (Bromberg-Martin et al., 2010). С другой стороны, многочисленные когнитивные исследования продемонстрировали вызванную опытом и повторяющимся поведением пластичность в сенсорной коре человека (Shuler & Bear 2006, Seferences 2008; Vickery et al. 2011; Alexandrov et al., 2007). Однако в классических моделях принятия решений до сих пор не учитываются возможные изменения восприятия репрезентаций на уровне сенсорного входа, связанные с обучением с подкреплением (Rangel et al., 2008). Последние исследования, тем не менее, подтверждают важность учета изменений, вызванных обучением ассоциации стимул-подкрепление, в областях мозга, участвующих в обработке информации о вознаграждении, например, в сенсорной коре (Thomas et al., 2013, Persichetti et al., 2015). Такие пластические изменения в восприятии стимула как следствие изменения его ценности в результате появившейся связи с подкреплением могут приводить, например, к увеличению или снижению чувствительности к нему и прямо влиять на поведение субъекта в дальнейшем. В индустрии азартных игр используется масса стимулов, в том числе звуковых эффектов, которые кодируют различные виды подкрепления (например, многообразие звукового сопровождения в игровых автоматах исчисляется сотнями эффектов, Rivlin et al., 2004). Наша научная группа ранее провела серию исследований в данной области, в которых изучила механизмы нейропластичности слухового восприятия в головном мозге человека (Krugliakova et al., 2018; Krugliakova et al., 2019, Gorin et al., in revision). В этих экспериментах для построения ассоциации стимул-подкреплении мы использовали широко распространенную и хорошо известную игру на отложенное денежное подкрепление (monetary incentive delay task, MID-задача), которую модифицировали, заменив визуальные подсказки на звуковые. Для оценки пластических изменений мы выбрали так называемую oddball задачу, в которой провоцируется появление компонента негативности рассогласования, являющегося коррелятом пластических изменений в слуховой коре. Нам удалось показать, что двухдневное обучение в ходе MID-задачи вызвало увеличение компонента P3a (по сравнению с базовым условием) в ответ на стимулы, кодирующие вознаграждение, что указывает на усиление непроизвольного внимания к данным стимулам. Более того, изменение MMN, вызванное тренировкой в MID-задаче, коррелировало с амплитудой записанного во время сеанса MID-задачи FRN (компонента, связанного с восприятием негативного результата действия, который отражает снижение дофаминергической активности, приводящее к ингибированию передней поясной извилины коры головного мозга, что вызывает сигнал «ошибки предсказания вознаграждения» (Hajihosseini and Holroyd, 2013; Holroyd and Coles, 2002)). Данные результаты позволяют сделать предположение о том, что MID-задача вызывает нейропластические изменения в слуховой системе. Данные изменения связаны с лучшим неосознанным распознаванием стимулов, кодирующих вознаграждение, а также с усилением непроизвольного переключения внимания на эти сигналы. Полученные нами данные позволили предположить, что сенсорная обработка слуховых стимулов, кодирующих вознаграждение, динамически модулируется результатами предыдущих действий (Krugliakova et al., 2019; Gorin et al., 2020). Тем не менее, мы установили, что выраженность пластических изменений по измерениям негативности рассогласования (НР) (англ. mismatch negativity, MMN (Naatanen et al., 1997) коррелировала с чувствительностью FRN к магнитуде подкрепления. Это может свидетельствовать о том, что динамика обучения ассоциациям, выраженная в электрофизиологическом ответе, может являться предиктором степени пластических изменений в сенсорной коре. Несмотря на ряд достоинств использованной парадигмы, нельзя утверждать, что она в полной мере подразумевает оперантное научение, так как респондент обладал только одним вариантом совершаемого действия, вне зависимости от стимула (Knutson et al., 2000, 2005; Richards et al., 2013). Более того, в MID-задаче практически невозможно оценить правильность выполнения задания, в то время как информация о правильном и неправильном выборе необходима для моделирования обучения, основанного на вознаграждении. Таким образом, информация об индивидуальном обучении, которую можно получить по результатам MID-задачи, является очень ограниченной. В то же время данные об индивидуальной динамике обучения являются важным поведенческим маркером, который позволил бы установить взаимосвязь между изменениями в вызванных ответах мозга и скоростью появления устойчивого двигательного паттерна в ответ на определенный стимул. Для того чтобы обогатить репертуар инструментального обучения и проверить гипотезу о связи динамики обучения с выраженностью пластических изменений в сенсорной коре, мы планируем разработать новую парадигму, включающую монетарную игру, в которой будут однозначно сопоставлены стимул и необходимое действие, а также будет включено как негативное, так и положительное подкрепление. В результате мы ожидаем, что степень выраженности пластических изменений увеличится, так как активная дискриминация стимулов будет критически важна для успешности выполнения заданий. Игровая форма поможет повысить вовлеченность испытуемого в выполнение задачи. На первом этапе проекта мы разработаем новую звуковую версию экспериментальной задачи, представляющей собой вариант лотереи по типу игры в однорукого бандита, предполагающей наличие активного выбора (англ., two-armed bandit task, Behrens et al., 2007). Участники будут выбирать между двумя решениями с разными ожидаемыми ценностями, закодированными с помощью звуковых сигналов. Такой подход позволит изучить динамику поведенческого аспекта ОП-обучения. Использование данной задачи, являющейся модификацией т.н. «однорукого бандита», позволит использовать математическое моделирование ОП-обучения и оценить индивидуальные параметры обучения. В простейшем случае ОП-параметрами для каждого испытуемого будут скорость обучения и степень случайности выбора (англ., learning rate и choice randomness, соответственно). Кроме того, мы планируем построить модель, которая свяжет динамику изменения компонентов ВП в ответ на обратную связь о результате пробы и пластические изменения в компонентах MMN и пассивного внимания P3a. Дополнительно мы планируем изучить связь особенностей паттерна осцилляторной активности покоя и обучения, выраженного как в поведении, так и в динамике вызванных ответов мозга. В предыдущих работах по исследованию нейропластичности, вызванной принятием решения в контексте денежного вознаграждения (как выигрышей так и проигрышей) (Krugliakova et al., 2019; Gorin et al. 2020), мы руководствовались классическими представлениями теории ожидаемой полезности/ценности (excpeted value, EV) о том, что величина и вероятность вознаграждения оптимальным образом интегрируются при выборе или выводе ценности принимаемой альтернативы (von Neumann and Morgenstern, 1947), а именно- мультиплицируются. Подобная стратегия умножения вероятности и величины вознаграждения носит названия OPT (от англ. optimal) модели. Однако, полученные нами результаты обнаружили не симметричные эффекты нейропластичности, вызванной MID-задачей, интерпретация которых согласно классическим представлением об ожидаемой ценности в виду отсутствия параметрической зависимости MMN от EV (Krugliakova et al., 2019; Gorin et al., 2020) В то же время, новейшие работы в области нейромоделирования предлагают альтернативную модель принятия решений на основании оценивания альтернатив -- аддитивную стратегию при расчете ценности опций выбора или т.н. модель MIX (Rouault et al., 2019). В последние несколько лет в сотрудничестве с ENS центром когнитивных нейронаук Этьена Кохлена ( Etienne Koechlin) (Париж, Франция) мы развили и протестировали теорию, согласно которой человек использует аддитивную (последовательную) субоптимальную стратегию при расчете ценности опций выбора из двух альтернатив (модель MIX), и противопоставили ее теориям превалирующим в поведенческой экономике: оптимальной мультипликативной стратегии и субъективной оценке ценностей. Исследование подтвердило превосходство аддитивной стратегии над MIX. Для проверки аддитивной теории мы провели поведенческое исследование, в котором мы манипулировали изменчивостью окружающей среды и представлением результатов в виде потерь / выигрышей. Данное исследование также было направлено на проверку способности модели MIX обнаруживать изменения в поведении человека в ответ на изменения в среде принятия решений. Результаты показали, что действительно эта аддитивная теория и полученное семейство моделей могут гибко и понятно объяснить динамику принятия решений человеком в изменяющейся и сложной среде при манипуляциях, включенных в эксперимент (Ghambaryan et al., 2021). Использования полученных нами MIX результатов для моделировании эффектов сенсорной пластичности, связанной с выполнением экономической задачи (например, модификации игры в "однорукого бандита" или MID) позволит с одной стороны, построить более полную модель обучения с подкреплением, включив в неё пластические изменения в активности сенсорной коры, вызванной денежным подкреплением. С другой стороны, расширить теоретические представления о механизмах принятия решений с точки зрения нейровычислительных механизмов, а именно применив MIX модель выбора к результатам измерений активности мозга. Таким образом, основываясь на полученных данных, мы сможем заполнить имеющийся на данный момент пробел в данной научной области. Выбранные методы и подходы представляются нам актуальными для данного исследования, так как являются развитием подхода, который продемонстрировал свою валидность при оценке пластических изменений вследствие ассоциации стимул-подкрепление, что подтверждается имеющимися публикациями. Установление роли пластических изменений в обучении с подкреплением и, особенно, моделирование таких изменений является важным шагом для более полного понимания процессов, стоящих за изменениями в поведении и принятии решений, связанных с денежным подкреплением.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Публикации

1. Григорьева А., Горин А., Ключников В., Шестакова А. Ambiguous tDCS: variability of the brain response to transcranial direct current stimulation in reinforcement learning task Proceedings - 4th International Conference "Neurotechnologies and Neurointerfaces", CNN 2022, Proceedings - 4th International Conference "Neurotechnologies and Neurointerfaces", CNN 2022 с. 41-45 (год публикации - 2022)
10.1109/CNN56452.2022.9912454

Публикации

1. Григорьева А., Кондратенко А., Горин А., Шестакова А.Н. Context-Dependent P2 Plasticity Dynamics in the Monetary Incentive Delay Task 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN) IEEExplore, 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN), pp. 23-27 (год публикации - 2023)
10.1109/CNN59923.2023.10275169

2. Рыбина Е., Колозио М., Шестакова А.Н., Ключарев В.А. Neuromodulation of choice-induced preference changes: the tDCS study of cognitive dissonance Frontiers in Psychology, Frontiers in Psychology, 14, 1104410 (год публикации - 2023)
10.3389/fpsyg.2023.1104410

3. Иванова М.Д., Германова К., Петелин Д., Рагимова А., Эррохо-Руиз А. Decision making, belief updating and motor performance in bipolar disorder: an MEG study 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN), 2023 Fifth International Conference Neurotechnologies and Neurointerfaces (CNN), pp. 27-29 (год публикации - 2023)
10.1109/CNN59923.2023.10275288

Аннотация результатов, полученных в 2024 году
Изучение механизмов нейропластичности, связанных с обучением, является крайне актуальным в современной нейронауке. Эти механизмы включают в себя, в числе прочего, кодирование девиантных стимулов, кодирование ошибок предсказания и кодирование волатильности среды, которые мы исследуем в рамках нашего проекта. Мы реализовали два направления исследований в рамках данного проекта. 1. Исследование посвящено нейровычислительным механизмам сенсорной пластичности в слуховой коре при обучении денежным ассоциациям. С использованием магнитоэнцефалографии (МЭГ) изучались изменения мозговой активности в ответ на аудиальные стимулы, связанные с потерями. В исследовании приняли участие 30 человек (анализ включал 29). Эксперимент состоял из трех этапов: двух пассивных задач oddball для вызова негативности рассогласования (MMN) и промежуточного этапа активного обучения. Активность коры была реконструирована методом бимформинга LCMV. Модифицированная модель Рескорла-Вагнера использовалась для оценки скорости обучения (α) и детерминированности выбора (τ). Анализ показал кратковременные пластические изменения, лежащие в основе усиления внимания к стимулу после научения его ценности, в слуховой коре (A1) и префронтальных областях (ACC, vmPFC, dlPFC). При малых потерях детерминированность выбора (τ) коррелировала с активностью правой A1 (r=0.224, p<0.05) и dlPFC (r=0.279, p<0.01). При прослушивании тона, ассоциированного с большими потерями, скорость обучения (α; продемонстрированная участником в задаче активного монетарного научения) положительно коррелировала с левой ACC (r=0.243, p<0.05) и vmPFC (r=0.400, p<0.001). Результаты показывают, что сенсорная пластичность зависит от величины потерь: малые потери усиливают ассоциации в сенсорных зонах, большие потери активируют зоны оценки и принятия решений, сохраняя гибкость поведения. 2. Мы провели МЭГ-исследование моторного обучения и принятия решений в волатильной среде, а также реализовали декодирование МЭГ-активности, предсказав по МЭГ сигналу значения оценки волатильности и ошибки предсказания, взвешенной по точности. Мы использовали иерархическую байесовскую модель - иерархический Гауссовский фильтр - для анализа поведенческих данных. Нам удалось успешно предсказать значения параметров модели - оценки волатильности среды и ошибки предсказания, взвешенной по точности, - с точностью 67% и 65% соответственно. С точки зрения моторного обучения мы выяснили, что ожидание большей вероятности вознаграждения ведет к улучшению характеристик моторного поведения.

Публикации

1. Шестакова А.Н., Копытин Г.А., Симова А.А. Neuroplasticity in Economic Decision Making Under Active Choice 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN), 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN), C. 202 - 207 (год публикации - 2024)
10.1109/CNN63506.2024.10705842

2. Иванова М.Д., Копытин Г.А., Моисеева В.В., Шестакова А.Н. Neurophysiological Correlates of Probabilistic Reward-Based Learning: Using Decoding Approach on MEG Data 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN), 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN), C. 47 - 50 (год публикации - 2024)
10.1109/CNN63506.2024.10705812

3. Копытин Г.А., Кондратенко А.А., Моисеева В.В., Шестакова А.Н. Learning-Induced Changes in Auditory Processing: An MEG Investigation Using an Active Learning Task and Oddball Paradigm 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN), 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN) (год публикации - 2024)
10.1109/CNN63506.2024.10705830

4. Мартинез Саито М., Белянин А.В., Копытин Г.А., Иванова М.Д. Modeling Decision-Making Behavior in a Double Auction Task 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN), 2024 Sixth International Conference Neurotechnologies and Neurointerfaces (CNN), C. 109 - 112 (год публикации - 2024)
10.1109/CNN63506.2024.10705880

5. Копытин Г. А., Иванова М. Д., Эррохо Руис М., Шестакова А. Н. Evaluating the Influence of Musical and Monetary Rewards on Decision Making through Computational Modelling Behavioral Sciences, Behavioral Sciences. 2024. Т. 14. №. 2. Статья 124. (год публикации - 2024)
10.3390/bs14020124

Возможность практического использования результатов
Наше исследование позволило не только детализировать нейрофизиологические механизмы обработки ошибок и волатильности, но и предложило методы точного предсказания когнитивных состояний на основе МЭГ-активности, открывая перспективы для дальнейших исследований в области адаптивного обучения и принятия решений. Эти и другие результаты в области моделирования обучения и принятия решений в различных контекстах вызывают большой интерес в области вычислительной психиатрии, и особенно у лечащих врачей в контексте описания когнитивных и нейрофизиологических механизмов различных расстройств, к примеру, биполярного аффективного расстройства (БАР), обсессивно-компульсивного расстройства, шизофрении и многих других. К примеру, все больше врачей выступают за применение вычислительных моделей для понимания колебаний настроения при БАР (Ossola et al, 2020). Вычислительные модели, основанные на нейровычислительных работах по нестабильности настроения (Eldar & Niv, 2015), предполагают, что измененная аффективная реакция на выигрыши или проигрыши при БАР может влиять на параметры обучения, способствуя переоценке волатильности среды и ухудшенной адаптации к меняющимся условиям (Pulcu & Browning, 2020). В дальнейших исследованиях по данному направлению мы планируем валидизировать полученные нами результаты на клинической популяции.