Михаил Беляев рассказывает об исследовании. Источник: Стас Любаускас
— Где находятся ваши исследования по отношению к наукам о жизни?
— То, что я делаю — это computer science. Вся моя группа — это люди по большому счету с техническим образованием. Мы уже кое-что знаем про то, как работает медицина, но все-таки основное требование — это компьютерные науки. И в этом смысле наши исследования от биологии очень далеки. Здесь мы скорее идем по пути поиска хороших партнеров, то есть мы хорошо знаем техническую часть, и нужны врачи, которые нашу энергию направят в правильную сторону и объяснят, что нужно делать, что для них важно, а что — нет. Врачи в некотором смысле — модельный пользователь. Они уже знают, как решать их задачу, и чего им не хватает для хорошей жизни.
— Алгоритмы начали развиваться где-то с 60-х годов прошлого века, и обработка изображений существует уже достаточно давно. Как сейчас обстоят дела в вашей области ИИ в медицине?
— В компьютерном зрении, в широком смысле, произошел прорыв где-то 6–7 лет назад, который после этого начал распространяться в разные области, в том числе и в медицину. Поэтому сначала было большое воодушевление — все думали, что сейчас мы решим огромное количество задач, которые решить раньше не получалось. А теперь наступило некоторое разочарование, или скорее объективная оценка того, что происходит. Выяснилось, что тот первоначальный массив научных статей, который дал основание считать, что сейчас все будет здорово, был во многом некорректно с фактологической точки зрения построен.
В частности, исследователи брали данные из одной больницы и показывали: «Смотрите, у нас супер-алгоритм». А потом выяснялось, что в соседней больнице программа совершенно не работает. Медицина, как отрасль, давно выработала определенные правила проверки эффективности. Многоцентровые испытания — это одна из форм проверки, которая используется для тестирования, например новых лекарств, но их важность для систем искусственного интеллекта стали понимать лишь недавно. И теперь, мне кажется, происходит реальная оценка того, что реально алгоритмы могут, а что нет.
Параллельно специалисты пытаются точнее понять, собственно, какие задачи остаются открытыми. Оказывается, что еще многое не решено и пока не создан универсальный алгоритм, который сможет в перспективе заменить врача, о чем так любят говорить разные популисты. Ограничений у искусственного интеллекта много — он все-таки пока довольно глупый — и неизвестно, куда его удастся в ближайшие годы с этой точки сдвинуть.
— Можете рассказать о самых больших достижениях в вашей области за последние годы?
— Если говорить про компьютерное зрение вне медицины, то прорыв произошел около 6 лет назад в ImageNet Challenge — одном из самых ярких публичных соревнований. Участникам в рамках конкурса выдается около миллиона картинок, на которых изображен какой-то объект. Или объектов может быть несколько, но главным будет что-то одно: например, собака. И каждая порода будет представлять собой один класс в этом соревновании — а их больше ста. Прорыв случился, когда точность классификации алгоритмами выросла примерно с 60–70 процентов, что очень сильно уступало человеку, до 97–98 процентов. При этом, по разным оценкам, человек допускает 3–4 процента ошибок. То есть оказалось, что нейросеть справляется с задачей лучше, чем человек.
Следующий прорыв был ближе к искусственному интеллекту, но технологически все еще похож на предыдущий. Примерно пять лет назад AlphaGo — программа, которую сделала лаборатория компании Google Deep Mind, — обыграла человека в го. Го всегда считалась самой сложной для алгоритмизации игрой, гораздо сложнее чем шахматы, потому что вариантов развития ситуации на доске в ней принципиально больше.
В медицине одним из самых известных достижений стало решение по поиску признаков рака легкого на КТ грудной клетки (тоже, кстати, от Google). Оказалось, что при анализе единичного снимка — когда человек пришел, его просканировали и тут же отдали эти данные на обработку — алгоритм показывает даже большую точность, чем врач. А в сценарии, когда тот же пациент уже раньше приходил в больницу (а значит, можно было проследить за изменениями), качество работы компьютера и живого специалиста было примерно одинаковым.
При этом в прошлом году в Lancet — самом авторитетном и самом старом медицинском журнале — вышла статья, рассказывающая о том, насколько плохо делается валидация алгоритмов искусственного интеллекта и как сильно она не соответствует клиническим требованиям. На самом деле, безусловно, потенциал у технологии есть, однако говорить, что она уже может взять на себя какую-то существенную часть задач, пока нельзя.
— Для решения каких задач применяются алгоритмы искусственного интеллекта?
— Медицина — достаточно консервативная отрасль. Цикл испытаний, который требуется для того, чтобы войти в нее — не важно с новым фармпрепаратом или с новым программным обеспечением — занимает определенное время. Этот факт несколько тормозит внедрение инноваций.
Тем не менее, есть несколько примеров. В России самый известный и хорошо организованный — эксперимент по внедрению технологий компьютерного зрения, который проводится уже второй год в поликлиниках и городских больницах Москвы. Департамент здравоохранения предложил компаниям, у которых уже есть собственные разработки, подключиться к потоку данных медицинских изображений (КТ, МРТ, флюорография, маммография) и предоставлять врачам результаты работы алгоритмов — либо автоматически «подсвечивать» какие-то патологии, либо автоматически проводить измерения и помогать врачу.
Изначально предполагалось, что искусственный интеллект будет помогать находить рак легкого и рак молочной железы, однако потом случилась пандемия COVID-19, и в итоге к списку прибавился коронавирус. Задача заключалась в следующем: понять насколько картина, которая наблюдается в легких, похожа на поражение коронавирусом, есть ли там другие патологии, и какой процент легочной ткани поражен. В итоге, получился довольно любопытный результат.
Из 15 разных российских и иностранных компаний, которые поучаствовали в проекте, семь не прошли входное тестирование: то есть их программа либо работала слишком медленно, либо выдавала некачественный результат. Из оставшихся выбрали три лидера, которые в сумме обработали данные порядка сотни тысяч человек. Аналогов такого масштабного проекта в мире я не знаю.
— Пока что искусственный интеллект врачу не замена. А хороший ли он помощник? Насколько сейчас можно в принципе полагаться на алгоритмы?
— Это очень хороший вопрос. Сейчас, на самом деле, мало хороших оценок… Они есть в научных статьях, но обычно с ограничениями. Например, взяли данные из одной больницы и здесь же определили качество работы программы. Но совершенно не факт, что при выходе на широкий рынок, продукт будет давать такой же высокий результат. В этом смысле Москва — независимый полигон для всех поставщиков и поэтому интересно будет последить за публикациями.
Есть отдельный научный центр, который анализирует результаты, но я пока что не видел официальных итогов. По предварительным данным, время описания снимков снизилось где-то на 20–30 процентов, если я правильно помню цифры. То есть, в принципе алгоритмы свою полезность уже доказали. Ведь это довольно сложная задача: представьте, у вас есть 500 изображений легкого, по которым можете «бегать» вверх-вниз, и искать на них очаги заболевания — «матовое стекло». Кроме того, для постановки диагноза нужно оценить, какую долю легких эти «матовые стекла» занимают. Это довольно сложный процесс и очень субъективный.
Когда есть алгоритм, врач может просто посмотреть на изображение, проверить, что компьютер правильно все распознал, и довериться той цифре, которую он посчитал. А если программа определила что-то неправильно, то как-то скорректировать результат. Но это применимо только к узкой задаче: когда есть одна конкретная патология. Врач-рентгенолог, например, при описании того же КТ грудной клетки должен посмотреть на все органы, которые там представлены. Он должен оценить, нет ли в сердце или позвоночнике каких-то потенциальных патологий, нет ли увеличенных лимфоузлов, как выглядят основные сосуды — аорта, легочный ствол. В легких может быть огромное количество разных изменений помимо вирусной пневмонии, которые врач тоже должен зафиксировать.
Пока текущие алгоритмы покрывают довольно маленький спектр этих задач. Или покрывают относительно большой, но разные куски делают разные производители. Соответственно, пока нет единого решения — только какой-то разнородный набор инструментов. Поэтому я бы сказал, что сейчас это один из самых важных открытых вопросов: какая конкретная польза системе здравоохранения от этих новых технологий? Ее можно измерить в минутах, в секундах, в сэкономленных жизнях. Пока оценки довольно слабые. Слабые — не в смысле плохие — доказательная база слабая.
— А с чем связаны скачки в развитии искусственного интеллекта? Почему удается вдруг подняться с 60 до 96 процентов?
— Здесь играет роль совокупность нескольких факторов. Первое — рост вычислительных возможностей. Все современные алгоритмы требуют очень серьезного «железа» для того, чтобы обучать алгоритм на основании данных и потом его применять. Просто за последние 10 лет произошли настолько сильные изменения — в частности, появились мощные современные графические карты Nvidia — которые кардинально поменяли то, насколько сложные модели можно в принципе обучать. Сложность моделей выросла многократно, при этом скорость обучения все еще остается адекватной. Это не сто лет на то, чтобы построить один алгоритм.
Второе — это то, что появилось много данных. То есть пока не было ImageNet Challenge, миллиона различных изображений, не было достаточного количества информации для обучения. А современные алгоритмы — хотя и есть определенный прогресс в этой области — по-прежнему требуют много данных для того, чтобы их, собственно, научить решать какую-то задачу.
Третье — возникли новые классы алгоритмов, которых раньше не было, или они были не популярны и недоисследованы. Оказалось, что они могут давать результаты принципиально иного уровня.
— В будущем, как по-вашему, будет развиваться именно ваша область?
— Мне кажется, основная задача сейчас — хорошая обобщаемость того решения, которое мы можем построить. Это интересная открытая проблема: как сделать так, чтобы алгоритм понимал патологию по совокупности всех причин, а не только изменению интенсивности пикселей? Как его научить переходить от успешного распознавания одной патологии легкого, примеров которой он видел сотни тысяч примеров, до распознавания других болезней по одной-двум картинкам? Человек довольно спокойно сможет обобщить свои предыдущие знания и сказать «вот это туберкулез, а это признаки хронической обструктивной болезни легких», а алгоритм пока это делает плохо. Мне кажется, это основное направление — легкое, быстрое обучение обнаружению каких-то новых патологий, которых раньше компьютер не знал, а сегодня уже знает.
— А если пофантазировать, то чего бы вам хотелось? Может быть у вас есть какая-то большая мечта?
— Первое — хочется помочь человеку, который может быть уставшим, не выспавшимся, больным, то есть врачу, который может допускать ошибки — собственно, как и все мы иногда ошибаемся. Алгоритм, даже не самый совершенный, никогда не устает, он все время работает одинаково — и утром, и ночью.
Второе — хотелось бы автоматизировать то, что человек делает сейчас. Это точно задача решаемая — вопрос в количестве данных, которые для этого нужны. Интересно попробовать понять, а можем ли мы сделать что-то, что находится за пределами человеческих возможностей? Например, в рентгенологии, в частности в онкологии, золотой стандарт диагностики, это как правило не КТ или МРТ, а гистологические исследования. То есть ткань удалили, посмотрели на нее в микроскоп и поняли: «Ага, здесь действительно был какой-то очаг». Когда врач-рентгенолог учится анализировать снимки потенциальных онкологических больных, у него есть только картинка и ничего больше.
В алгоритм мы можем ретроспективно заложить не только знания о самой картинке со всеми ее ограничениями, но еще и знания о том, какими в реальности были ткани, а затем заставить его найти паттерны, на которые человек не обратит внимание. Иными словами, хочется учить компьютер с использованием «золотого стандарта» — единственного правильного ответа для конкретного случая. И очень интересно найти задачи, в которых искусственный интеллект за счет своих особенностей смог бы поменять в принципе способы ведения пациента, постановки диагноза, принятия решения о лечении. То есть не только компенсировать невнимательность и перегруженность врача, но еще и добавить что-то сверх.
— Лично вам хотелось бы, чтобы врача заменил искусственный интеллект?
— Если вы спрашиваете хочется мне или нет, то нет, мне не хочется. Как человек, который хорошо знаком с ограничениями искусственного интеллекта, я не готов доверять ему диагностику или лечение. Поэтому я вижу все эти инструменты как помощников, не как замену.
Безусловно, есть довольно много рутинных функций, которые можно автоматизировать. Но на всякий случай надо перепроверять, чтобы алгоритм где-нибудь не сделал глупой ошибки. Здесь могу вам рассказать байку. Коллеги из Москвы тестировали различные решения по раку легкого — им нужно было в легких найти очаг, то есть что-то, что аномально увеличилось и похоже на рак легкого на ранних стадиях. И они рассказали про несколько курьезных примеров. В частности, рак легкого был найден в столе томографа — то есть там, где лежал человек — а еще в застежке бюстгальтера. Самый смешной случай был, когда нашли рак легкого в подбородке. Представьте себе, идет сканирование, и в какой-то момент высвечивается все тело, над ним кружочек подбородка, и система его определяет как опухоль. Это все смешные примеры, но они показывают, что за технологиями пока что надо присматривать.
И даже если алгоритмы сильно улучшат — например, возьмут в 10 раз больше данных и обучат на них — все равно останутся какие-то очень сложные задачи. Мы говорили, например, про диагностику рака легкого. Но ведь это только первый шаг, а дальше идет лечение! Онкология — это, наверное, самая сложная часть для алгоритмизации, потому что там всегда работает целая группа врачей: не только врач-рентгенолог, который анализирует изображения, но и хирург, химиотерапевт, и они все вместе принимают решение о стратегии лечения. И даже если представить, что мы придумали совершенный алгоритм, то помочь пациенту будет гораздо тяжелее. Там неизбежно будут ошибки.
— Сможем ли мы какие-то насущные вопросы решить в ближайшие лет 10–20? Или пока до этого еще далеко?
— Мне кажется, что по алгоритмическим вопросам — то есть как научить компьютер находить новые патологии так же быстро, как это делает человек, или как его научить обобщать данные — через пять лет будет достигнут хороший прогресс. Я допускаю, что эти проблемы вообще к тому времени уже будут решены.
Что точно останется открытым — это более сложные задачи в медицине. Сейчас в большинстве случаев достаточно работать только с изображениями. Компьютерное зрение в других областях отличается: например, при автоматическом управлении беспилотными автомобилями или роботами возникают дополнительные сложности, связанные с тем, что приходится взаимодействовать с окружающим миром, который динамически меняется. В этом смысле медицинские изображения — это статичная история, поэтому тут принципиальных фундаментальных ограничений, которые заставили бы нас упереться в потолок, нет. Но как только мы начинаем говорить о более комплексных медицинских задачах, когда надо проанализировать не только картинку, но еще историю болезни, которая написана не очень структурированным текстом, результаты лабораторных анализов, и видео пациента, например, понять, есть ли у него тремор — то есть то, что врач глазом видит и быстро понимает — то все становится сложнее. Но я не вижу здесь опять-таки принципиальных ограничений, прогресс наверняка будет.