«Мы смогли существенно увеличить количественные показатели распознавания паралингвистических явлений в речи благодаря правильному выбору предварительно обученных нейросетевых моделей с их последующим дообучением на имеющихся ограниченных данных, а также комплексированию различных архитектур нейронных сетей. Компьютерные технологии и системы, разработанные в рамках данного исследования, в дальнейшем могут применяться в медицине, например для контроля состояния здоровья и психоэмоционального состояния людей, а также для выявления больных пневмонией с целью предупреждения распространения пандемии», — объясняет Алексей Карпов, руководитель проекта по гранту РНФ, доктор технических наук, доцент, руководитель лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского института информатики и автоматизации Российской академии наук (структурное подразделение СПб ФИЦ РАН).
Паралингвистика — относительно новый раздел прикладного языкознания, изучающий невербальные (внеязыковые) средства, включенные в речевое, текстовое или многомодальное взаимодействие и передающие, вместе с вербальными средствами, смысловую информацию о говорящем или пишущем. В целом паралингвистика исследует вопрос «как речь произносится», а не «что именно произносится». Компьютерная паралингвистика (Computational paralinguistics) занимается автоматическим распознаванием естественных эмоциональных и психофизиологических состояний и характеристик говорящего человека (диктора), включая его возраст, пол, диалект, правдивость проговариваемого, заболевания, эмоции и прочее.
Ученые и аспиранты из СПб ФИЦ РАН и Университета ИТМО (Санкт-Петербург) в команде с коллегами из Ульмского Университета (Германия) и Утрехтского Университета (Нидерланды) стали участниками престижных международных соревнований ComParE (INTERSPEECH Computational Paralinguistics ChallengE) и решали задачи, касающиеся обработки разговорной речи и естественного языка при помощи методов искусственного интеллекта, цифровой обработки сигналов, а также аффективных и поведенческих моделей. Международная конференция INTERSPEECH-2020, в рамках которой проводятся соревнования, в этом году должна была проходить в китайском Шанхае в конце октября, но из-за пандемии COVID-19 проводилась в онлайн формате как телеконференция.
Российские ученые предложили и разработали самые эффективные компьютерные технологии для двух из трех поставленных организаторами задач и заняли первые места за предложенные решения по конкурсам «Распознавание эмоций пожилых людей» и «Определение фазы дыхания человека по речи». Третьей задачей организаторы объявили «Распознавание наличия медицинской маски по речи диктора».
С научной точки зрения все три темы очень актуальны и важны для практики, так как связаны со здравоохранением. В рамках первой задачи «Распознавание эмоций пожилых людей» становится возможным следить за психоэмоциональным состоянием людей пожилого возраста, чтобы при необходимости оперативно оказать медицинскую помощь. Это особенно актуально в условиях пандемии, когда людям приходится ограничивать количество поездок, в том числе к родственникам. Ученые считают, что акустические особенности речевых сигналов и эмоциональных выражений у пожилых людей значительно отличаются от характеристик других возрастных групп. В рамках данного конкурса были предложены новые методы акустического и языкового моделирования психоэмоциональных состояний людей, а также эффективный метод их объединения, что позволило получить наилучший результат по распознаванию тональности — (положительной, нейтральной или отрицательной) эмоций и уровня активации психики.
При решении второй задачи, «Определение фазы дыхания человека по речи», ученые искали способ анализа непрерывной речи для сопоставления с дыхательными сигналами от пьезоэлектрического ремня, закрепленного на человеке. Это специальное устройство, которое изготавливается из ткани с использованием фотоэлементов и светочувствительных материалов. Такая система необходима для автоматического определения фазы дыхания человека (вдох или выдох) по его речи, а также может быть использована для бесконтактной медицинской диагностики состояния легких пациента. Были предложены специальные составные ансамблевые модели из искусственных нейронных сетей различных архитектур, в частности, сверточных нейросетей (CNN), рекуррентных нейросетей (RNN) и моделей с длинной краткосрочной памятью (LSTM).
Для решения третьей задачи, «Распознавание наличия медицинской маски по речи диктора», был использован метод на основе ансамбля современных нейронных сетей глубокого обучения, обученных на предоставленных организаторами соревнований аудиоданных речи немецких врачей в хирургических масках.