News

14 March, 2023 15:02

Алгоритмы предсказаний. Суперкомпьютеры помогут увидеть будущее

Source: Поиск
Сегодня суперкомпьютерные технологии вместе с математическим моделированием легли в основу новых понятий производства «цифровые модели», «цифровые тени», «цифровые двойники», сделав возможным создание виртуальных аналогов физических объектов. По мнению рабочей группы Минобрнауки, проанализировавшей потребности федеральных органов исполнительной власти, госкорпораций и прочих структур РФ, уже сейчас есть более 700 задач, которые не решить без суперкомпьютерных ресурсов. Московский государственный университет им. М.В. Ломоносова владеет самым мощным суперкомпьютерным комплексом в науке и образовании России. Основу его составляет суперкомпьютер «Ломоносов-2» (5,5 Пфлопс), возможностями которого пользуются более 3500 ученых из 20 подразделений этого университета, более сотни институтов РАН и столько же вузов Отечества. Высокое качество работы комплекса более 30 лет обеспечивает команда профессионалов Научно-исследовательского вычислительного центра МГУ. В 2021 году в НИВЦ создан коллектив, которым руководит профессор факультета биоинженерии и биоинформатики МГУ, доктор химических наук Витас ШВЯДАС. Сегодня он занят проектом (поддержан Российским научным фондом) «Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира до живых организмов и Земной системы».
Источник: Поиск

– Витас, что такое кодизайн?
– Суперкомпьютерные системы имеют огромный потенциал для выполнения расчетов, но воспользоваться им непросто. Одна из проблем: большое количество параллельно работающих узлов, процессоров, ядер, функциональных устройств. Благодаря одновременной работе этого множества достигается высокая производительность. Но что будет, если при решении задачи нет дос-таточного ресурса параллелизма? Если выбранная технология программирования или система поддержки времени выполнения не обеспечивают необходимую параллельность? Если компилятор не может разобраться в структуре программы и степень параллельности генерированного кода ниже степени параллельности суперкомпьютера? Тогда мы будем отходить от пиковых показателей производительности, достигая лишь долей процента от возможностей компьютера. Поэтому необходимо согласовать все этапы решения задачи, спроектировать вычислительный процесс так, чтобы их структура и свойства отвечали бы структуре и свойствам суперкомпьютера, – в этом заключается смысл понятия «суперкомпьютерный кодизайн».

– Готовясь к нашей встрече, я выяснил, что область ваших научных интересов – фундаментальные и прикладные аспекты физико-химической биологии. Вы – соавтор двух первых в стране промышленных процессов инженерной энзимологии: биокаталитических технологий получения ключевых соединений для производства полусинтетических пенициллинов и цефалоспоринов. Почему ушли в суперкомпьютерные дела?
– Интерес к использованию компьютеров появился много лет назад. Он был связан с математическим моделированием кинетики ферментативных реакций. Стало очевидно, что понимание глубинных нюансов механизма действия ферментов, создание биокатализаторов, дизайн лекарственных препаратов и предсказание их токсичности невозможны без высокопроизводительных вычислений. Они нужны для эффективного применения методов биоинформатики, молекулярного моделирования, теоретической химии, обработки больших массивов данных. Последние два десятка лет мы вели исследования в этом направлении в сотрудничестве с коллегами из НИВЦ и факультета вычислительной математики и кибернетики МГУ, лабораторией члена-корреспондента РАН профессора Владимира Воеводина. При поддержке РФФИ был создан задел, а новый проект, возникший благодаря РНФ, позволил выйти на решение более масштабных задач. Толчком к их формулированию послужила программа создания научных школ МГУ по наиболее актуальным исследовательским проблемам. По инициативе директора НИВЦ было подготовлено предложение о междисциплинарной научной школе по использованию суперкомпьютерных методов для решения актуальных задач в различных областях науки. Обсуждение этого предложения помогло нам осознать, что у специалистов, применяющих вычислительные методы в разных областях, есть общие проблемы. Так с коллегами по вычислительной математике, ядерной физике, структурной лингвистике, изучению климата мы пришли к формированию комплексного проекта, включающего создание и применение новых высокопроизводительных алгоритмов решения задач естественного и гуманитарного характера в физике элементарных частиц, задачах искусственного интеллекта и автоматической обработки текстов, разработке моделей Земной системы, биоинформатике.

Важнейшим этапом стала разработка архитектуры и принципов построения высокопроизводительной платформы для эффективной поддержки приложений предсказательного моделирования и искусственного интеллекта, требующих интенсивных вычислений и работы с большими объемами данных. Мы поставили целью этого проекта сформировать систему оценок для проведения сравнительного анализа и определения приоритетов при изучении производительности суперкомпьютерных приложений и систем. Взаимодействие в этом направлении координирует кандидат физико-математических наук Вадим Воеводин. Для каждого типа ресурсов разрабатывается метод быстрого анализа качества работы отдельных пользователей, проектов, организаций или прикладных пакетов. Оценки, основанные на данных системного мониторинга, вычисляются в автоматическом режиме для всего потока приложений, выполняющихся на суперкомпьютере.


Источник: архив исследователя

– Что такое «тип ресурсов»?
– Это процессоры, подсистема памяти, MPI-сеть, файловая система (сеть ввода-вывода), графические ускорители. Предлагаемые методы реализованы и апробированы на суперкомпьютере «Ломоносов-2». В частности, для реализации оценок использования процессоров и памяти выполнено расширение системы мониторинга DiMMon (разработка Научно-исследовательского вычислительного центра МГУ), что позволило собирать данные с расширенного набора процессорных датчиков. Были разработаны и апробированы методы поиска схожих шаблонов поведения суперкомпьютерных приложений. Например, в области физики элементарных частиц под руководством доктора физико-математических наук Владимира Смирнова усовершенствуются алгоритмы и компьютерные программы для точного решения квантовополевых моделей, требуемые для проведения вычислений в данной области, ведется их адаптация для работы с использованием сверхвысокопроизводительных платформ. Успешно применяются вычислительные методы, создана компьютерная программа MBcreate на языке Mathematica. Важная роль в этом принадлежит доктору физико-математических наук Александру Смирнову.

Процессы, происходящие в деятельном слое суши и пограничном слое атмосферы, представляют ключевые звенья циклов энергии, воды, углерода и биогенных элементов в Земной системе. Их исследования были начаты под руководством члена-корреспондента РАН, доктора физико-математических наук Василия Лыкосова, ушедшего из жизни в сентябре 2021 года, исследования эти успешно продолжают его ученики, прежде всего доктор физико-математических наук Виктор Степаненко, кандидат физико-математических наук Евгений Мортиков.

Численное моделирование комплексных физических процессов, происходящих на суше и в пограничном слое атмосферы, требует решения как частных прикладных задач, так и совершенствования систем предсказательного моделирования погоды и климата. Создана версия модели деятельного слоя суши с явным воспроизведением уровня грунтовых вод, учитывающей их сток за счет горизонтального течения в водонасыщенной части грунта. Численные эксперименты показали реалистичность предложенного решения. Разработана вихреразрешающая модель атмосферного пограничного слоя, включающая описание процессов тепло- и влагопереноса в почве.

Важная задача проекта – использование высокопроизводительных вычислений при изучении живых систем, в медицине и фармацевтике. Создаем базу ключевых белков/ферментов человека и перечень мутаций, связанных с патологическими состояниями организма. Биоинформатический анализ с использованием суперкомпьютерных технологий дает возможность проводить автоматизированную оценку функциональной значимости структурных вариаций в геноме пациента и применять это в персонифицированной медицине.
При анализе 4150 структур белков/ферментов человека идентифицированы несколько десятков тысяч потенциальных участков связывания малых молекул. Предстоит дать оценку перспективности их использования в качестве мишеней при разработке молекул-эффекторов. Это может стать основой технологии компьютерного дизайна прототипов лекарственных средств, предсказания их возможных побочных действий, то есть поможет исключить ряд длительных и трудоемких стадий экспериментального скрининга и существенно ускорить процесс создания селективных лекарственных препаратов.

– В Интернете публикуется огромное количество мнений, анализ которых может дать представление о проблемах и вопросах, обсуждаемых с диаметральных позиций, изучить настроения общества. Анализ больших текстовых данных в сочетании с традиционными методами социологии может дать более детальную картину происходящих в обществе процессов?
– Конечно, может. Важной задачей исследований, проводимых под руководством доктора технических наук Натальи Лукашевич, является формирование карты дискуссионных вопросов с выявлением антагонистических и поддерживающих отношений между обсуждаемыми субъектами, объектами, явлениями и процессами. Она поможет выявлять болевые точки и конфликты в российском обществе, исследовать модели предсказательного моделирования социальной устойчивости. Новизну работ обеспечивает применение комплексного подхода к анализу текстовых данных, включая большие лингвистические ресурсы, предобученные модели и методы классификации на основе нейронных сетей, методы логического вывода и анализа связного текста.

– Интернет – тема, интересная для многих. Расскажите подробнее, пожалуйста.
– Изучаются способы выражения мнений в Интернете и аргументы по различным общественно-политическим темам: отношение к отечественным историческим деятелям (Сталин, Горбачев, Ельцин и др.), реакция на политику различных стран, обсуждение антиковидных мер, мнение о рождении детей (так называемое репродуктивное поведение). Например, на конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2022» совместно с коллегами из Сколковского технологического института и Вятского государственного университета было организовано тестирование подходов к автоматическому извлечению мнений пользователей по отношению к антиковидным мерам. Разрабатываемая в нашем проекте методология показала свою состоятельность. Основной подход базируется на использовании нейронных сетей. Задачи автоматической обработки текстов сложные, при их решении не получается установить точные правила и алгоритмы для извлечения позиций и аргументов. Тут пригодно машинное обучение, когда в наборе данных (обучающий датасет) специалисты размечают позиции автора и аргументы. Чтобы последующий анализ был более объективным, в обучающих датасетах высказывания размечаются несколькими специалистами независимо друг от друга, а затем для анализа текстов по обсуждаемому вопросу используются математические методы машинного обучения.

Технически при автоматической обработке текстов языковую нейросетевую модель сначала обучают создавать контекстуализированные векторные представления слов, когда каждое слово текста преобразуется в вектор чисел фиксированной длины, зависимый от контекста, для чего необходимы большие вычислительные ресурсы. Затем специализированный классификатор обучается на размеченном наборе данных (датасете), в котором каждое слово преобразуется в предобученный вектор с учетом контекста. Так при обучении проводятся некоторый учет, анализ контекста, а векторизация слов позволяет обрабатывать слова, которые не упоминались в обучающей выборке.

Проблемой существующих подходов к анализу тональности и аргументации остается зависимость от предметной области, поэтому важной целью является переносимость обученных моделей из одной предметной области в другую.

– Витас, при столь разных задачах нужен неординарный коллектив соратников…
– Конечно, над проектом работают высококвалифицированные специалисты в области вычислительной математики, физики, химии, биологии, биоинформатики и биоинженерии, географии и филологии. Это – отражение общего интереса к междисциплинарным исследованиям. Много лет работая в МГУ, я с удовольствием могу свидетельствовать: интерес молодых людей к использованию вычислительных технологий с каждым годом растет. В первую очередь говорю это о студентах факультетов биоинженерии и биоинформатики, а также химического. Я их знаю лучше, уже не говоря о молодежи с ВМК, математического и физического факультетов. Более половины коллектива исполнителей нашего проекта составляют именно молодые люди, в том числе студенты и аспиранты. Это увлеченные наукой личности, от активности и профессионального развития которых будут зависеть внедрение суперкомпьютерных технологий в различные области исследований и в конечном итоге конкурентоспособность нашей науки. Сейчас мы находимся в середине срока выполнения проекта. Убедились, что намеченный план исследований реалистичен, смогли получить значимые результаты по всем направлениям. Это отражено в публикациях, представлено на научных конференциях. Произошли минимальные изменения в составе, сложился работоспособный научный коллектив. По наукометрическим показателям идем с опережением. Мы признательны РНФ за поддержку и понимание, особенно когда встретились с отказом софинансирующей организации от предварительных договоренностей и пришлось искать новых партнеров. Благодаря поддержке Фонда смогли привлечь студентов, а также дополнительно трех молодых кандидатов наук к научной работе, что оказалось очень продуктивным делом. В целом этот конкурс (конкурс Президентской программы РНФ для лабораторий мирового уровня – Прим. ред.) представляется нам хорошо продуманным и полезным для укрепления современных тенденций применения высокопроизводительных вычислений для развития научных исследований, особенно в реалиях последнего времени, когда проведение экспериментальных работ сдерживали пандемия и поставка реагентов.

15 April, 2024
Микроб — строитель? Ученые создают самозалечивающийся долговечный материал
Сотрудник Санкт-Петербургского политехнического университета Петра Великого Владимир Чистяков толь...
11 April, 2024
Сквозь кроличью нору к далеким квазарам
Космос полон тайн, но даже самые фантастические теории могут найти со временем научное подтвержден...