КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-72-20291

НазваниеСоздание системы машинного обучения для анализа больших объемов данных астрофизики элементарных частиц

РуководительРубцов Григорий Игоревич, Доктор физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение науки Институт ядерных исследований Российской академии наук, г Москва

Период выполнения при поддержке РНФ 07.2020 - 06.2022 

Конкурс Конкурс на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по мероприятию «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 02 - Физика и науки о космосе, 02-101 - Физика элементарных частиц

Ключевые словаСистемы машинного обучения, системы обработки больших объемов данных, астрофизика частиц, космические лучи ультравысоких энергий, гамма-астрономия, модели адронных взаимодействий, радио-тихие пульсары

Код ГРНТИ29.05.00


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
В рамках проекта планируется разработка новых методов обработки данных, а также получение физических результатов в результате применения разработанных программ к большим объемам данных современных экспериментов. Будут использоваться как ставшие классическими алгоритмы, такие как сверточные нейронные сети и усиленные деревья решений, так и нетривиальные обобщения, появившиеся относительно недавно. Планируется разработать алгоритм классификации быстрых радиовсплесков (БРВ), который позволит исследовать свойства популяции БРВ, а также связь природы радиовсплесков магнетаров и БРВ. Планируется разработать новые методы нейросетевого анализа направлений прихода космических лучей с использованием динамических графов. За счет метода динамических графов и явного учета энергии индивидуальных событий планируется добиться рекордной чувствительности для обнаружения возможных источников космических лучей ультравысоких энергий. Будет построен устойчивый к систематике алгоритм определения химического состава космических лучей ультравысоких энергий. Будет разработан метод поиска радиотранзиентов на телескопе БСА-3 в Пущинской Радиоастрономической обсерватории с помощью сверточных нейронных сетей. По данным орбитального телескопа Fermi LAT будет проведен поиск гамма-пульсаров. Будет выполнено количественное сравнение популяций радио-тихих и радио-шумных гамма-пульсаров. Результаты исследований будут внедрены в образовательный процесс в рамках спекурсов в МГУ им. М.В. Ломоносова и в МФТИ.

Ожидаемые результаты
Ожидается разработка нового алгоритма классификации быстрых радиовсплесков основанного на методах кластеризации с использованием машинного обучения. Планируется проведение классификации радиовсплесков, зарегистрированных телескопами ASKAP и CHIME, которое возможно приведет к обнаружению новых типов быстрых радиовсплесков. Ожидается построение нового метода анализа направлений прихода космических лучей ультравысоких энергий, основанного на методе динамических графов и явно учитывающего энергии индивидуальных событий. Планируется применение разработанного метода к анализу данных Telescope Array, в результате которого ожидаются ограничения на модели источников космических лучей ультравысоких энергий либо обнаружение этих источников. Ожидается построение устойчивого к систематике адронной модели метода анализа химического состава космических лучей, основанного на сверточной нейронной сети. С помощью этого алгоритма будет сделана оценка средней атомной массы первичных частиц по данным Telescope Array, не зависящая от выбора адронной модели высокоэнергетичных взаимодействий. Ожидатся разработка нового метода совместного анализа анизотропии и массового состава космических лучей. Этот метод будет применен для проверки различных моделей источников космических лучей ультравысоких энергий по данных Telescope Array. Ожидается разработка нового метода основанного на использовании сверточной нейронной сети для поиска транзиентов с неизвестной мерой дисперсии в данных ПРАО. Метод будет использован для поиска всплесков от галактики М31 и для поиска радиотранзиентов во всём массиве данных наблюдений радиотелскопа БСА-3 ПРАО. Ожидается разработка нового метода поиска гамма-пульсаров по данным телескопа Fermi LAT. С использованием данного метода будет выполнен поиск гамма-пульсаров на всем небе в данных телескопа Fermi LAT; количественное сравнение популяций радио-тихих и радио-шумных гамма-пульсаров; построение наиболее полного каталога глитчей гамма-пульсаров по данным телескопа Fermi-LAT. Ожидается, что все результаты проекта будут соответствовать мировому уровню и использоваться мировым научным сообществом. Результаты проекта будут внедрены в образовательный процесс в рамках спецкурса для магистров и аспирантов Физического факультета МГУ им. М.В. Ломоносова. Разработанные архитектуры систем машинного обучения смогут найти применение при проектировании и построении астрофизических экспериментов нового поколения, а также в других областях исследований и разработок.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
Исследованы данные о быстрых радиовсплесках, зарегистрированных радиотелескопом Australian Square Kilometre Array Pathfinder (ASKAP). Разработан программный код для обработки данных, полученных с сайта обсерватории ( https://data.csiro.au/collections/collection/CI36589 ), и с его использованием получены частотные и динамические спектры всплесков. В анализе быстрых радиовсплесков использованы данные лучей диаграммы направленности с наибольшей интенсивностью всплеска. Данные включают в себя 336 частотных каналов с шириной полосы 1 МГц и максимальной частотой 1488 МГц. На основе методов машинного обучения без учителя создан алгоритм, позволяющий классифицировать радиовсплески на основании наблюдаемых спектров. Используя построенный классификатор, быстрые радиовсплески были разделены на два класса по параметрам: длительность, спектр, интенсивность вспышки. Построен новый метод анализа анизотропии космических лучей сверхвысоких энергий, основанный на сверточных нейронных сетях, использующий дополнительный параметр - энергию события. Добавление этого параметра преследовало две цели: во-первых, распределение КЛ от источника зависит от их энергии, таким образом, при анализе только направлений прихода КЛ без учёта энергии часть информации теряется; во-вторых, что ещё важнее, все реальные эксперименты обладают конечной ошибкой в определении энергии КЛ (относительная ошибка ~20%) и это может вносить искажения в результаты метода, основанного на анализе только направлений. Была построена модифицированная нейронная сеть с разбиением на 15 ячеек по энергии, оптимизированная для решения этой более сложной задачи и проверена её работа в сценарии близкого источника, в котором некоторый вклад (5-15%) вносит какое-то из 5 ближайших активных ядер галактик. Показано, что включение энергии и аккуратный учёт неидеального поведения детекторов практически не изменяют чувствительность по сравнению с идеальным случаем, рассмотренным в предыдущей работе, что позволяет перейти к использованию нового метода для анализа реальных данных. В рамках пакета ROOT::TMVA разработана модификация метода усиленных деревьев решений (Boosted Decision Trees, BDT), способная использовать для обучения несколько различных наборов модельных Монте-Карло событий в качестве «фонового» и «сигнального» наборов. Тренировка метода построена таким образом, чтобы события, относящиеся к различным моделям адронных взаимодействий, классифицировались одинаково. Таким образом, метод минимизирует систематическую зависимость оценки состава космических лучей от выбранной адронной модели. Метод анализа массового состава космических лучей основанный на изучении анизотропии их направлений прихода и ее зависимости от энергии использован для получения новых независимых ограничений на долю протонов и долю ядер железа в потоке КЛУВЭ. Метод основан на сравнении распределения наблюдаемых событий по небу с распределением, ожидаемым в консервативной модели, в которой источниками КЛУВЭ является крупномасштабная структура Вселенной. Применение метода к данным наземной решетки эксперимента Telescope Array дало результаты хорошо согласующиеся с ожидаемыми из моделирования. Полученные ограничения на долю протонов и ядер железа в потоке КЛУВЭ и на эволюцию этих долей с энергией нетривиальны и содержат субдоминантную и контролируемую неопределенность связаную с неточным знанием галактических и внегалактических магнитных полей. Примечательно что метод позволил получить независимые ограничения на состав КЛУВЭ при энергиях соответствующих ГЗК-обрезанию, где применение традиционных методов анализа массового состава страдает от недостатка статистики. За отчётный период разработан метод поиска импульсов с неизвестной мерой дисперсии в данных третьей диаграммы БСА ПРАО АКЦ ФИАН. Основные характеристики телескопа - телескоп меридианного типа, суммарная диаграмма 50x1 градус, за 24 часа покрывает небесную сферу в диапазоне склонений от -8 до 42 градусов. БСА ПРАО АКЦ ФИАН ведети непрерывные наблюдения с 2014 года. Обработаны данные наблюдений галактики М31 с целью поиска импульсов. Не было обнаружено ни одного сигнала, с потоком превышающим 10 Ян. Разработан программный код, выполняющий основные составляющие алгоритма поиска периодического сигнала, отвечающего гамма-излучению пульсаров, выполняющий вычисления на графических процессорах Nvidia. Начата работа по созданию метода, основанного на алгоритмах машинного обучения, для поиска и выделения области значений неизвестных параметров (координат на небесной сфере, частоты, производной частоты по времени) кандидатов в пульсары на основе анализа всего массива накопленных данных быстрого преобразования Фурье. Отобранные этим методом значения параметров планируется уточнить с помощью перебора их возможных значений и вычисления H-тест статистики. Публикация в издании Коммерсантъ по результатам проекта: https://www.kommersant.ru/doc/4548666

 

Публикации

1. Е.В. Соколова, А.Г. Панин Search for glitches of gamma-ray pulsars with deep learning submitted to Astronomy and Astrophysics journal, - (год публикации - 2021)

2. Иванов Д., Калашев О.Е., Кузнецов М.Ю., Рубцов Г.И., Сако Т., Цунесада Й., Жежер Я.В. Using deep learning to enhance event geometry reconstruction for the telescope array surface detector Machine Learning: Science and Technology, 2, 015006 (год публикации - 2021) https://doi.org/10.1088/2632-2153/abae74

3. Калашев О.Е., Пширков М.С., Зотов М.Ю. A study of an energy-dependent anisotropy of cosmic rays beyond the GZK cut-off with deep neural networks arXiv, 2105.06414 (год публикации - 2021)

4. - Зачем нужен многослойный персептрон Коммерсант, Наука от 27.10.2020, 19:14 (год публикации - )


Аннотация результатов, полученных в 2021 году
Исследованы динамические спектры быстрых радиовсплесков, измеренные телескопом CHIME. Разработаны и использованы усовершенствованные алгоритмы классификации без учителя. В результате анализа данных установлено, что ни один из использованных методов не указывает на существование трех и более классов радиовсплесков. В то же время, возможно существование как одного так и двух классов радиовсплесков. Большинство методов обнаруживают в данных только один класс радиовсплесков, в то время как метод Deep Embeddings, разделяет радио-всплески на два класса. Если существуют два класса быстрых радиовсплесков, отличающихся по физическому механизму возникновения, то соответствующие им динамические спектры оказываются в большинстве случаев похожи, с возможностью надежного разделения только в экстремальных случаях. Разработанный ранее в рамках работ по гранту метод анализа направлений прихода космических лучей ультравысоких энергий позволил оценить возможный вклад двух вероятных источников в северном полушарии в поток космических лучей, наблюдаемый выше 56 ЭэВ на установке Telescope Array. В обоих случаях данные совместны с предположением об отсутствии вклада источников. При этом в случае галактики M 87 на уровне достоверности 95% было показано, что не более 2 событий из анализируемых 143 могут происходить от указанного источника. В случае М 82 ограничение слабее: не более 9 из 143, при этом наиболее вероятным сценарием оказалось наличие 1-2 событий от источника. Разработан алгоритм анализа направлений прихода космических лучей, основанный на графовых сверточных нейронных сетях. Код разработанного алгоритма опубликован на GitHub ( https://github.com/okolo/ml_cr_aniso ). Выполнен анализ массового состава космических лучей ультравысоких энергий по данным 12 лет наземной решетки эксперимента Telescope Array. Показано, что результат применения метода устойчив к исключению наблюдаемых, чувствительных к мюонному составу широких атмосферных ливней. Разработан модельно-независимый метод оценки химического состава космических лучей ультравысоких энергий в рамках двух адронных моделей, QGSJET II-03 и QGSJET II-04. Соответствующий метод основан на применении нейронной сети, комбинирующей сверточные и рекуррентные слои. Точность оценки состава для смешанного набора данных находится на уровне среднего арифметического точностей нейронных сетей, натренированных на модельно-зависимую оценку в рамках каждой из адронных моделей. Усовершенствован метод ограничения химического состава КЛУВЭ из анализа направлений их прихода. Показано, что метод также может использоваться для ограничения концентрации источников КЛУВЭ. С помощью усовершенстованного метода показано что модель редких источников КЛУВЭ плохо согласуется с экспериментальными данными. В результате поиска коротких всплесков в направлении галактик M31, M82, NGC6946 не было обнаружено ни одного такого всплеска с потоком выше 1 Ян более чем за 150 часов наблюдений для каждого объекта. Порог обнаружения может быть даже ниже, около 0.5 Ян, если всплеск приходится на момент кульминации источника, когда эффективная площадь телескопа максимальна. Также, не было обнаружено коротких импульсов от магнитаров SGR 1935+2134 и SGR 2013+3419, которые доступны для наблюдения на БСА ПРАО. Всплески от SGR 1935+2134 не были обнаружены в том числе и в те дни, когда они детектировались на более высоких частотах 400-800 и 1280-1530 МГц радиотелескопами CHIME и STARE2, соответственно. Для целей поиска длительных транзиентов с продолжительностью в дни и более был построен куб данных, представляющий из себя совокупность ежедневных карт интенсивности за промежуток времени 2021-2022. Из-за сильного влияния инструментальных эффектов и эффектов среды нам потребовалось разработать собственный подход к очистке данных. Карты неба разбивались с использованием стандартного алгоритма HEALPIX c NSIDE=128, что соответствует характерному размеру пиксела в 0.5 градуса, который позволяет точно описать диаграмму направленности антенны с размером 0.5*1 градус. Для уменьшения влияния паразитных эффектов из кривой блеска для каждого пиксела вычиталась усреднённая кривая блеска, полученная по соседним пикселам. В результате применения разработанного подхода стало возможным получить очищенные кривые блеска. Поиск в них транзиентов с потоком выше 10 Ян не привёл к обнаружению. Построен каталог глитчей гамма-пульсаров, состоящий из 35 событий, половина из которых найдены впервые. PSR J1522-5735 является примером пульсара, для которого возникла необходимость уточнения второй и третьей производных частоты по времени. Особенностью данного пульсара является то, что в результате глитчей частота пульсара не увеличивается, как это наблюдалось для сотен глитчей, а уменьшается. При этом данный вывод можно сделать только подобрав правильные значения второй и третьей производных частоты. В противном случае видимая частота пульсара после глитчей восстанавливается к исходному значению, что полностью меняет интерпретацию данных событий. Резкое уменьшение частоты пульсара, т. н. анти-глитч, - крайне редкое явление. В литературе отмечается лишь несколько случаев уменьшения частоты вращения магнитаров (см., например, Archibald et al, Nature 497 (2013)), которые, возможно, связаны с изменениями магнитосферы. Амплитуда анти-глитчей у PSR J1522-5735 сравнима с амплитудами анти-глитчей магнитаров, в то время как оценка его магнитного поля дает значение в 50 раз меньшее, чем у последних. Этот факт позволяет исключить гипотезу возникновения анти-глитчей, как магнитосферного явления, по крайней мере для PSR J1522-5735. Последовательность из 6 обнаруженных анти-глитчей при отсутствии глитчей позволяет также поставить под сомнение возможное происхождение этих явлений в результате столкновения с другим небесным телом. В то же время анти-глитчи вступают в противоречие с основной гипотезой происхождения глитчей как результата передачи момента импульса от быстровращающегося сверхтекучего ядра нейтронной звезды к оболочке. Таким образом, обнаружение анти-глитчей у пульсара без сильного магнитного поля (rotation-powered pulsar) является событием, указывающем на необходимость пересмотра моделей возникновения глитчей.

 

Публикации

1. Жежер Я.В., коллаборация Telescope Array Mass composition anisotropy with the TA SD data Proceedings of Science, 395,299 (год публикации - 2021) https://doi.org/10.22323/1.395.0299

2. Жежер Я.В., коллаборация Telescope Array Cosmic-ray mass composition with the TA SD 12-year data Proceedings of Science, 395,300 (год публикации - 2021) https://doi.org/10.22323/1.395.0300

3. Калашев О.Е., Иванов Д., Кузнецов М.Ю., Рубцов Г.И., Сако Т., Цунесада Й., Жежер Я.В. TA SD energy and arrival direction estimation using deep learning Proceedings of Science, 395,252 (год публикации - 2021) https://doi.org/10.22323/1.395.0252

4. Кузнецов М.Ю., коллаборация Telescope Array UHECR mass composition from anisotropy of their arrival directions with the Telescope Array SD Proceedings of Science, 395,294 (год публикации - 2021) https://doi.org/10.22323/1.395.0294

5. Н.Н. Калмыков, И.С. Карпиков, Г.И. Рубцов, С.В. Троицкий Muon lateral distribution function of extensive air showers: Results of the Sydney University Giant Air-shower Recorder versus modern Monte Carlo simulations Physical Review D, 10, 103004 (год публикации - 2022) https://doi.org/10.1103/PhysRevD.105.103004

6. Рубцов Г.И., коллаборация Telescope Array Highlights from the Telescope Array experiment Proceedings of Science, 395,012 (год публикации - 2022) https://doi.org/10.22323/1.395.0012

7. Харук И.В., Калашев О.Е., коллаборация Telescope Array Mass composition of Telescope Array's surface detectors events using deep learning Proceedings of Science, 395,384 (год публикации - 2021) https://doi.org/10.22323/1.395.0384


Возможность практического использования результатов
Созданные в результате проекта методы опубликованы, программы для ЭВМ размещены открыто на GitHub. Разработанные методы могут использоваться как для повышения эффективности работы существующих экспериментов, так и для проектирования экспериментов нового поколения, включая эксперименты космического базирования. Спектр возможных применений разработанных методов не ограничен задачами, выполненными в рамках проекта, а может быть расширен на существующие и планируемые эксперименты в области физики высоких энергий. Результаты внедрены в образовательный процесс, исполнителям проекта разработаны и читаются спецкурсы по применению методов машинного обучения в астрофизике на физическом факультете МГУ им М.В. Ломоносова и на кафедре фундаментальных взаимодействий и космологии МФТИ.