Новости

3 декабря, 2018 11:29

Какие наши буквы: ученые узнают возраст по постам в соцсетях

Источник: Известия
Интеллектуальную компьютерную модель для анализа текстов, публикуемых в социальных сетях, создали в Курчатовском институте. Изучение написанного таким способом позволяет достаточно точно определить истинный возраст автора, даже если он пытается его скрыть. Эта работа является частью широкого спектра исследований, ведущихся в Курчатовском комплексе НБИКС-природоподобных технологий. Ранее ученые уже разработали механизм определения пола автора текста. Теперь они научились определять и возраст. На очереди — другие составляющие авторского профиля — такие как образование и профессия.
Источник: Depositphotos

Строгий профиль

В мировой науке сейчас активно развивается междисциплинарное направление под названием authorship profiling, «автороведение». Его представители — специалисты по анализу данных, лингвисты, психологи — пытаются с той или иной мерой достоверности вычислить индивидуально-личностные характеристики автора текста. Для этого ученые строят математические модели на основе корреляций между численными значениями различных параметров текста и характеристик автора. Создать подобные модели позволяет машинный анализ огромного массива текстов из интернета, снабженных открытыми авторскими профилями. Однако для русскоязычных текстов это научное направление только начинает создаваться.

— Наша задача — это разработка методики диагностирования возраста участника интернет-коммуникации на основе анализа количественных параметров его текстов, — пояснил ведущий научный сотрудник Курчатовского комплекса НБИКС-природоподобных технологий Александр Сбоев. — Эти исследования идут в рамках гранта Российского научного фонда.

Разработки ученых в рамках проекта позволят с высокой степенью достоверности определить демографические характеристики пишущего, если он задумает подделать свою письменную речь, чтобы скрыть истинный возраст.

— Процесс развития интернет-коммуникаций неизбежно сопровождается увеличением уровня киберпреступности, — отметил начальник группы нейроморфных алгоритмов Курчатовского комплекса НБИКС-природоподобных технологий Роман Рыбка. — Интернет в качестве средства для поиска новых жертв и установления контакта с ними используют и мошенники, и люди с расстройствами психики, и вербовщики из террористических организаций. 

Естественно, киберпреступники не заинтересованы в распространении данных, которые бы помогли их идентифицировать, поэтому в своих персональных профилях и переписке они искажают сведения о себе, поэтому очень важным ключом к информации о них становится анализ текстов.

На сколько выглядишь

В Курчатовском институте был разработан и проанализирован широкий круг математических моделей, построенных на множестве комбинаций признаков и использующих различные варианты обучения. Созданные в результате алгоритмы позволяют с точностью около 80% определить возрастную группу автора, который пытается выглядеть старше или моложе своих лет.

— Решение задачи определения возраста автора текста становится всё более актуальным с ростом трафика текстовых сообщений в социальных сетях и на форумах, — считает Александр Сбоев. — Системы на основе таких методов смогут решить многие проблемы социального мониторинга, проводить анализ активности различных возрастных групп граждан по остросоциальным темам в Сети.

Полученные учеными результаты послужат основой работы над более фундаментальной проблемой — оценкой вероятности возникновения различных социально опасных событий, например, терактов.

ЖЖ в «лаборатории»

Исследования в Курчатовском комплексе НБИКС-природоподобных технологий ведутся совместно с лингвистами Воронежского государственного педагогического университета. Заведующая университетской лабораторией теоретической и прикладной идиолектологии Татьяна Литвинова рассказала «Известиям», что базовым лингвистическим материалом для исследования послужил корпус блогов «Живого журнала».

— Этот ресурс был выбран нами потому, что посты в ЖЖ, как правило, имеют больший объем в сравнении с другими электронными жанрами — такими, как твиты или посты в Facebook, — а также из-за того, что в ЖЖ пишут люди всех возможных возрастов, от школьников до пенсионеров.

Для составления корпуса текстов ученые отбирали тех авторов, которые указывали свой возраст в профиле. Конечно, кто-то из них может и исказить свой возраст, но мировые стандарты исследований в области диагностирования личности автора текста, по словам Татьяны Литвиновой, исходят из того, что подавляющее большинство авторов указывает свой возраст в профиле все-таки верно.

Разработанные в ходе проведенных исследований методы и инструменты применимы также и в системах анализа профиля автора текста при судебно-лингвистической экспертизе или формировании портрета автора анонимных писем. Они могут использоваться в качестве системы определения намеренного искажения данных в социальных профилях пользователей или дополнительного инструмента при формировании психологического профиля автора. По мнению Александра Сбоева, предлагаемые подходы могут найти применение и в системах таргетированной рекламы — для более точного определения возрастных групп пользователей.

24 апреля, 2024
Люди каменного века умели использовать окружающий ландшафт для своих целей
Ученые впервые подробно описали рельеф местности на момент обитания людей на стоянках Быки на терр...
29 марта, 2024
Ученые НГУ впервые провели радиоуглеродный анализ образцов из памятника андроновской культуры Вахрушево-1
Исследователи Института археологии и этнографии СО РАН совместно с коллегами из НГУ установили, чт...