КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 16-18-10050

НазваниеДиагностирование пола и возраста участника интернет-коммуникации на основе количественных параметров его текстов

РуководительСбоев Александр Георгиевич, Доктор физико-математических наук

Организация финансирования, регион Федеральное государственное бюджетное учреждение "Национальный исследовательский центр "Курчатовский институт", г Москва

Период выполнения при поддержке РНФ 2016 г. - 2018 г. 

Конкурс№13 - Конкурс 2016 года на получение грантов по приоритетному направлению деятельности РНФ «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-453 - Языкознание

Ключевые словаписьменный текст, интернет-коммуникация, моделирование личности по тексту, автоматическая обработка языка, социолингвистика, математическая лингвистика, корпусы текстов, нейронные сети, компьютерная лингвистика, автороведение, искажение признаков письменной речи

Код ГРНТИ16.31.00


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
В настоящее время считается общепризнанным положение о том, что в тексте как продукте речемыслительной деятельности человека неизбежно находят отражение его индивидуально-личностные характеристики (пол, возраст, черты характера и т.д.). Отечественной наукой (лингвистикой, психологией, криминалистикой и т.д.) накоплено немало данных о влиянии пола, возраста, уровня образования, темперамента, других индивидуально-личностных характеристик автора на лингвистические параметры созданного им письменного текста (на разных языковых уровнях), однако исследования, направленных на разработку методик диагностирования (с определенной точностью) демографических и индивидуально-психологических характеристик автора письменного текста, в том числе участника интернет-коммуникации, на основе анализа количественных параметров текстов на русском языке, единичны. В современной зарубежной науке активно развивается междисциплинарное направление (authorship profiling), представители которого (специалисты по анализу данных, лингвисты, психологи) решают задачу диагностирования индивидуально-личностных характеристик автора текста путем построения математических моделей на основе корреляций между численными значениями тех или иных параметров текста и характеристик его автора, найденных на основе анализа, с применением современных методов автоматической обработки языка, огромного массива текстов (в том числе текстов интернет-коммуникации, снабженных информацией об их авторах). До недавнего времени подавляющее большинство таких исследований выполнялось на материале английского языка, однако в последние несколько лет стали указанный подход стали применять и к другим языкам. В ряде работ сообщается о достигнутой точности определения пола и возраста автора текста в 80 % и выше. Однако в известных работах не учитывается то обстоятельство, что авторы текстов, в особенности интернет-коммуникации, могут сознательно искажать признаки письменной речи с целью имитации речи лица противоположного пола и/или другой возрастной группы, а также степень стабильности параметров в текстах одного автора и их зависимость от его тематики. Очевидно, что при разработке валидных методик диагностирования характеристик автора письменного текста, в том числе участника интернет-коммуникации, необходимо анализировать параметры текста, не подверженные сознательному искажению, отличающиеся высокой частотностью, стабильностью и независимостью от темы текста. Для выявления таких языковых параметров и построения соответствующих методик необходимы специальные исследования на обширном корпусном материале с применением современных методик автоматической обработки текстов и методов анализа данных, в том числе методов машинного обучения. Проект имеет носит теоретико-прикладной характер. В последние несколько лет наблюдается бурное развитие интернет-коммуникации. К сожалению, этот процесс неизбежно сопровождается и увеличением уровня киберпреступности: преступный мир активно использует виртуальный мир в своих целях. Так, Интернет в качестве средства поиска новых жертв и установления контакта с ними используют педофилы, вербовщики из запрещенных террористических организаций и т.д. Естественно, кибепреступники не заинтересованы в распространении данных, которые бы помогли их выявить и идентифицировать, поэтому в своих персональных профилях и переписке они зачастую искажают сведения о себе (пол, возраст и т.д.), и единственным ключом к получению информации о преступниках является анализ их текстов. Конкретной задачей проекта является разработка методики диагностирования пола и возраста участника интернет-коммуникации на основе анализа количественных параметров его текстов, позволяющей с высокой степенью достоверности определить демографические характеристики пишущего с учетом возможности намеренного искажения им признаков письменной речи с целью имитации речи лица противоположного пола и/или другой возрастной группы, а также методики определения наличия в тексте признаков намеренного искажения письменной речи. Научная новизна проектируемого исследования определяется: 1) постановкой задачи исследования; 2) материалом исследования; 3) подходом к выбору параметров текстов для анализа; 4) разнообразием математических методов исследования.

Ожидаемые результаты
Проект направлен на решение актуальных задач современной лингвистической науки, интеллектуального анализа данных. Разработанный инструментарий для диагностирования пола и возраста участника интернет-коммуникации на основе анализа квантифицируемых, не поддающихся контролю сознанию и сознательной имитации параметров созданных им текстов может быть использован для выявления участников интернет-коммуникации, намеренно искажающих информацию о себе, и таким образом для повышения безопасности общения в интернете, в том числе детей и подростков.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2016 году
В ходе выполнения проекта РНФ в 2016 году были получены значимые научные результаты. 1. Был создан корпус текстов, специально предназначенный для исследований в области диагностирования пола автора текста и выявлений различий в речи мужчин и женщин Russian Gender Attribution Corpus (RusGendAttr), не имеющий аналогов в отечественной и зарубежной лингвистике. Уникальность корпуса состоит в том, что он содержит интернет-тексты на русском языке (сообщения интернет-пользователей в соцсетях – Vkontakte, Twitter, Facebook) с демографической информацией об их авторах; тексты на русском языке, созданные в присутствии экспериментаторов, представляющие собой образцы естественной письменной речи и снабженные обширными метаданными в виде информации об их авторах пол, возраст, данные психологического тестирования, уровень образования, данные нейропсихологического обследования); тексты, созданные с намеренным искажением признаков письменной речи с целью имитации речи лица противоположного пола (подкорпус Gender Imitation); корпус интернет-текстов (твитов) билингвов – лиц, владеющих как русским, так и английским языком. Данный корпус представляет собой уникальный ресурс, который может быть использован не только для решения задач данного научного проекта, но и широкой научной общественностью, в частности исследователями, занимающиеся проблемами выявления различий в речи женщин и мужчин и построением методик диагностирования личности по тексту. В настоящее время нами ведутся работы по созданию сайта и размещению корпуса в открытом доступе. Доклады на международных конференциях, посвященные корпусу, показали наличие большого интереса зарубежных исследователей к корпусам текстов на русском языке, содержащим метаразметку в виде данных об авторах. Члены научного коллектива были приглашены на крупные международные конференции, которые пройдут в 2017 году, для выступления с докладами о результатах работ по гранту, выполненных на материале созданного корпуса. 2. В соответствии с заявкой нами были получены данные о степени стабильности в текстах квантифицируемых языковых параметров (более 100). С учетом полученных данных были проведены эксперименты, направленные на выявление различий в мужской и женской русской письменной речи и построение, с использованием различных методов, математических моделей для диагностирования пола автора на основе количественных значений параметров созданного им текста. На основе полученных данных были построены математические модели для диагностирования пола автора текста на русском языке с использованием нескольких подходов. В рамках первого подхода было построено несколько регрессионных моделей для каждого параметра текста на основе оптимальной выборки, с учетом знака коэффициента корреляции и исключения статистических выбросов. Проведенные расчеты показали, что с использованием предложенного подхода был верно диагностирован пол у 65% женщин и 63% мужчин. Таким образом, вероятность совпадения пола автора текста, предсказанного с использованием предложенного выше подхода на основе количественных значений пяти наиболее стабильных языковых параметров, с реальным полом продуцента текста составила 64%. Помимо описанного подхода, нами был применен подход, связанный с с использованием методов машинного обучения для построения классификатора, относящего текст к группе написанных мужчиной/женщиной на основе количественных значений большого числа текстовых параметров, не зависящих или слабо зависящих от темы и жанра текста (морфологические, синтаксические характеристики). Сравнительный анализ классификаторов, построенных на основе различных алгоритмов машинного обучения, показал, что среди наиболее часто используемых для задач классификации текста наиболее высокую точность (74%+/-0,05) показал алгоритм ReLu. В то же время использование сложных моделей нейронных сетей (CNN+LSTM), ранее не применявшихся в литературе для решения задач классификации текста, дало более высокую точность (86%+/-0.03) даже при использовании небольшого числа параметров текста. Однако применение данного метода имеет ряд ограничений, связанных прежде всего с трудностью в оценке вклада того или иного параметра в точность модели, поскольку данные модели извлекают и обрабатывают информацию из текста нелинейно, в связи с чем в дальнейшем нами планируется развитие методов извлечения значимых комбинаций параметров на основе внутренних параметров нейронной сети, а также тестирование полученных моделей на текстах соцсетей. Таким образом, результаты проведенных в ходе выполнения проекта экспериментальных исследований показали принципиальную возможность диагностирования пола автора текста на русском языке на основе количественных значений параметров текста, не связанных с его содержанием и неподконтрольных сознанию пишущего. 3. Полученные в ходе выполнения проекта в 2016 году научные результаты были опубликованы в 7 научных статьях, 6 из которых входят в базы Web of Science/Scopus и доложены на 7 международных конференциях.

 

Публикации

1. Литвинова Т., Литвинова О., Загоровская О., Середин П., Сбоев А., Романченко О. "Ruspersonality": a Russian Corpus for Authorship Profiling and Deception Detection 2016 International FRUCT Conference on Intelligence, Social Media and Web (ISMW FRUCT), pp. 29-35 (год публикации - 2016) https://doi.org/10.1109/FRUCT.2016.7584767

2. Литвинова Т., Середин П., Литвинова О., Загоровская О., Сбоев А., Гудовских Д., Молошников И., Рыбка Р. Gender Prediction for Authors of Russian Texts Using Regression And Classi cation Techniques Proceedings of CDUD 2016 – The 3rd International Workshop on Concept Discovery in Unstructured Data, Jaume Baixeries, Dmitry I. Ignatov, Dmitry Ilvovsky, Alexander Panchenko (Eds.) CDUD 2016 – The 3rd International Workshop on Concept Discovery in Unstructured Data, July 18, 2016, Moscow, Russia, pp. 44-53 (год публикации - 2016)

3. Литвинова Т.А. Судебная автороведческая экспертиза текста с целью установления пола его автора: проблемы и перспективы Современное право, № 7. С. 111-115 (год публикации - 2016)

4. Литвинова Т.А., Загоровская О.В., Середин П.В. Диагностирование пола автора письменного текста на основе количественных параметров: когнитивный подход Вопросы когнитивной лингвистики, 2016, № 4, С. 51-59 (год публикации - 2016) https://doi.org/10.20916/1812-3228-2016-4-51-59

5. Сбоев А.Г., Власов Д.С., Серенко А.В., Молошников И.А., Литвинова Т.А. On the applicability of spiking neural network models to solve the task of recognizing gender hidden in texts Procedia Computer Science, Procedia Computer Science (2016), vol. 101, pp. 187-196 (год публикации - 2016) https://doi.org/10.1016/j.procs.2016.11.023

6. Сбоев А.Г., Власов Д.С., Серенко А.В., Рыбка Р.Б., Молошников И.А. On the applicability of STDP-based learning mechanisms to spiking neuron network models AIP Advances, Т.6, №11, С. 111305 (год публикации - 2016) https://doi.org/10.1063/1.4967353

7. Сбоев А.Г., Литвинова Т.А., Гудовских Д.В., Рыбка Р.Б., Молошников И.А. Machine Learning Models of Text Categorization by Author Gender Using Topic-Independent Features Procedia Computer Science, 2016, vol. 101, pp. 135-142 (год публикации - 2016) https://doi.org/10.1016/j.procs.2016.11.017


Аннотация результатов, полученных в 2017 году
Главной отличительной чертой работ этого года по отношению к работам предыдущего года является проведение анализа текстов, в которых содержится намеренное искажение признаков письменной речи с целью имитации речи лица противоположного пола. Для проведения этого анализа была выполнена работа по подготовке специально размеченных корпусов. В первую очередь это корпус Gender Imitation, для которого каждый из авторов написал по три текста на выбранную тему: Текст A – в собственном стиле, Текст B – с попыткой имитировать противоположный пол, текст C – в стиле, отличном от своего собственного. Помимо написания текста пользователю в обязательном порядке предлагалось пройти тестирование по методу анкетирования, в котором он отмечал такие признаки как пол, возраст, уровень образования, является он правшой или левшой и т.д. Данный корпус также содержит разметку результатов прохождения автором теста "Маскулинность-фемининность" по наличию у него мужских и женских черт. В ходе исследования по обучению моделей для диагностики пола автора на текстах с искажением пола была выявлена недостаточность размера данного корпуса для получения содержательных результатов с учетом статистической погрешности. Для увеличения размера обучающей выборки путем краудсорсинга был собран русскоязычный корпус «Gender imitation crowdsource» текстов интернет пользователей, выполнявших задание по составлению текстов с имитацией пола и стиля написания, согласно аналогичному заданию корпуса «Gender imitation». Корпус «Gender imitation crowdsource» содержит 1161 текст от мужчин и 2043 текста от женщин. Указанные корпуса позволили проделать математическую работу по анализу параметров текста с намеренным искажением признаков письменной речи с целью имитации речи лица противоположного пола, выявить параметры текста, меняющихся при намеренном искажении признаков письменной речи с целью имитации речи лица противоположного пола, оценить корреляции между полом автора текста и стабильными параметрами текста, показателем фемининности/маскулинности. Аналогичные корреляции со стабильными параметрами были оценены на материале корпуса интернет-текстов; выделены списки наиболее коррелирующих параметров. Также было выявлено влияние на параметры текста латеральной организации автора текста на основе индекса «рукости», рассчитанного как разница между количеством «правых», «левых» и «смешанных» ответов информантов по набору специальных тестов. Выяснилось, что тексты праворуких мужчин и женщин и леворуких мужчин и женщин соответственно наиболее близки по ряду количественных показателей, в то время как тексты мужчин и особенно женщин с разным мануальным предпочтением различаются между собой в наибольшей степени, что дает нам возможность утверждать, что на количественные параметры текста характер «рукости» оказывает значительное влияние. Полученные результаты доказывают также необходимость дальнейшего, более тщательного изучения проблемы отражения психофизиологических параметров личности в ее речевой продукции не изолированно, а в совокупности, в их взаимодействии друг с другом. Как показал проведенный нами анализ, психологический пол (степень феминности/маскулинности авторов текстов), в отличие от характеристик профиля латеральной организации, не оказывает значимого влияния на характер изменения выбранных нами групп параметров при искажении автором языковых характеристик своих текстов с целью имитации речи лица противоположного пола либо маскировки стиля. Для диагностирования пола автора текста с учетом возможного искажения признаков письменной речи в отчетном году был разработан и проанализирован широкий круг математических моделей с использованием разных математических методов с оценкой их эффективности. Методы включали с одной стороны набор традиционных алгоритмов (Support Vector Machine Classifier-SVM, Gradient Boosting, Random Forest, AdaBoosting, Logistic Regression, Extreme Gradient Boosting, Extra Trees Classifier), а с другой стороны нейросети глубокого обучения (различные топологии с использованием сверточных и LSTM, сиамских сетей). Анализировались модели, построенные на различных комбинациях признаков и использующие различные варианты обучения. Лучший результат показан на модели SVM, которая в комбинации с признаками TF-IDF дает лучший результат F1=0.64 +/- 0.03 на текстах с искажением. Результаты, выполненной в рамках проекта оценки эффективности полученных моделей позволили установить текущие state-of-the-art точности решения задачи диагностики пола автора текста для текстов без искажения в F1 = 0.88+/- 0.03, в то время как для текстов с искажением эта точность составляет F1= 0.64 +/- 0.03. Причем точность расчета по модели растет с увеличением размеров обучающей выборки. Показано, что обучение на краудсорсинговых корпусах, отфильтрованных с помощью модели, настроенной на эталонной выборке Gender Imitation, дает существенное повышение точности расчета текстов с сокрытием пола (до F1=0.93 в зависимости от композиции выборки). Предлагаемый подход открывает путь к получению большей выборки, по распределению близкой к сравнительно небольшой эталонной, для обучения новой модели повышенной точности. Полученные в ходе выполнения проекта в 2017 году научные результаты были доложены на 4 международных конференциях, проходивших как в России, так и за рубежом. Кроме того, с участием членов коллектива исполнителей проекта было проведено международное соревнование-тестирование моделей по диагностированию пола автора текста на русском языке в рамках международной инициативы PAN (http://en.rusprofilinglab.ru/rusprofiling-at-pan/ ). Русский язык впервые был представлен в истории указанной международной инициативы. По результатам работы этого года опубликовано 7 статей, из них: 6 опубликованы в изданиях, индексируемых Scopus, и 4 - в изданиях, индексируемых Web of science Core collection, а также 4 - индексируемых РИНЦ.

 

Публикации

1. Литвинова Т., Гудовских Д., Сбоев А., Середин П., Литвинова О., Писаревская Д., Россо П. Author Gender Prediction in Russian Social Media Texts CEUR Workshop Proceedings, Supplementary 6th International Conference on Analysis of Images, Social Networks and Texts, AIST-SUP 2017, Volume 1975, Pages 105-110 (год публикации - 2017)

2. Литвинова Т., Середин П., Литвинова О., Загоровская О. Differences in type-token ratio and part-of-speech frequencies in male and female Russian written texts Proceedings of the Workshop on Stylistic Variation, W17-4909, pp. 69–73 (год публикации - 2017)

3. Литвинова Т., Середин П., Литвинова О., Рыжкова Е. Estimating the Similarities between Texts of Right- Handed and Left-Handed Males and Females Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Volume 10456 LNCS, 2017, Pages 119-124 (год публикации - 2017) https://doi.org/10.1007/978-3-319-65813-1_11

4. Литвинова Т.А., Середин П.В., Литвинова О.А., Загоровская О.В. Gender identification in Russian written texts XLinguae, Volume 10, Issue 3, 2017, Pages 176-183 (год публикации - 2017) https://doi.org/10.18355/XL.2017.10.03.14

5. Сбоев А. Г., Молошников И. А., Гудовских Д. В., Селиванов А. А., Рыбка Р. Б., Литвинова Т. А. Automatic gender identification of author of Russian text by machine learning and neural net algorithms in case of gender deception Procedia Computer Science, - (год публикации - 2017)

6. Сбоев А., Литвинова Т., Воронина И., Гудовских Д., Рыбка Р. Deep Learning Network Models to Categorize Texts According to Author's Gender and to Identify Text Sentiment Proceedings - 2016 International Conference on Computational Science and Computational Intelligence, Номер статьи 7881503, Pages 1101-1106 (год публикации - 2017) https://doi.org/10.1109/CSCI.2016.0210

7. Сбоев А., Молошников И., Гудовских Д., Рыбка Р. A comparison of Data Driven models of solving the task of gender identification of author in Russian language texts for cases without and with the gender deception Journal of Physics: Conference Series, - (год публикации - 2017)

8. - Пол человека научились определять по его постам в интернете Газета "Известия", - (год публикации - )


Аннотация результатов, полученных в 2018 году
Главной отличительной чертой работ этого года по отношению к работам предыдущего года является проведение анализа текстов, в которых содержится намеренное искажение признаков возраста в письменной речи с целью имитации принадлежности к другой возрастной группе. Для проведения этого анализа была выполнена работа по подготовке специально размеченных корпусов. В первую очередь это корпус Age Imitation crowdsource, для которого каждый из авторов написал по три текста на выбранную тему: Текст A – пишется от своего лица на заданную тему, Текст B – с попыткой имитировать письменный стиль человека младшего возраста относительно своего, текст C – с попыткой имитировать письменный стиль человека старшего возраста. Помимо написания текста пользователю в обязательном порядке предлагалось пройти тестирование по методу анкетирования, в котором он отмечал такие признаки как пол, возраст, уровень образования, является он правшой или левшой и т.д. Также в рамках этого года был собран корпус блогов на базе проекта LiveJournal. Всего в рамках корпуса Age Imitation Crowdsource собрано более 13 тыс текстов с наличием имитации и без нее от более чем 3300 авторов. В рамках корпуса LiveJournal собрано 22707 сообщений от 2705 авторов, аннотированных по полу и возрасту автора во время публикации. Указанные корпуса позволили проделать математическую работу по анализу параметров текста с намеренным искажением признаков возраста в письменной речи с целью имитации речи лица другой возрастной группы, оценить корреляции между возрастной группой автора текста и стабильными параметрами текста. Для диагностирования возраста автора текста с учетом возможного искажения признаков письменной речи в отчетном году был разработан и проанализирован широкий круг математических моделей с использованием разных математических методов с оценкой их эффективности. Методы включали с одной стороны набор традиционных алгоритмов (Support Vector Machine Classifier-SVM, Gradient Boosting, Random Forest), а с другой стороны нейросети глубокого обучения (различные топологии с использованием сверточных и LSTM, сиамских сетей). Анализировались модели, построенные на различных комбинациях признаков и использующие различные варианты обучения. Лучший результат показан на модели SVM, которая в комбинации с признаками TF-IDF дает лучший результат F1=0.8 при определении типа имитации на текстах с искажением. Результаты выполненной в рамках проекта оценки эффективности полученных моделей позволили установить текущие state-of-the-art точности решения задачи диагностирования возрастной группы автора текста без искажения со значением F1 = 0.45, в то время как для текстов с искажением эта точность составляет F1= 0.42. Таким образом, модель незначительно теряет в точности в случае, когда обучающая выборка не содержит примеров с искажением, и работает на уровне модели, которая предназначена для определения возраста авторов текста без сокрытия. Из этого следует, что модели машинного обучения позволяют выделять информацию, инвариантную к попыткам умышленного искажения возраста автором текста. Результаты решения задачи определения возраста автора текста получены впервые для текстов на русском языке. В целом, они согласуются с опубликованными результатами для английского и испанского языков, в получении которых были использованы выборки, значительно превосходящие размером собранную в рамках данного исследования. Задача определения возраста автора текста в условиях возможного искажения ранее не решалась. Полученные в ходе выполнения проекта в 2018 году научные результаты были представлены на 5-ти международных конференциях, проходивших как в России, так и за рубежом. Кроме того, результаты легли в основу лекции “Диагностирование пола и возраста участника интернет-коммуникации на основе количественных параметров его текстов”, доложенной на научно-техническом семинаре Консорциума Национального Центра Когнитивных Разработок в области создания и применения машинного обучения и когнитивных технологий. По результатам работы этого года опубликовано 7 статей, из них 6 опубликованы в изданиях, индексируемых Scopus.

 

Публикации

1. Литвинова Т.А., Сбоев А.Г., Паничева П.В. Profiling the age of Russian bloggers Communications in Computer and Information Science, том 930, стр. 167-177 (год публикации - 2018) https://doi.org/10.1007/978-3-030-01204-5_16

2. Литвинова Т.А., Середин П.В., Литвинова О.А., Загоровская О.В. Identification of gender of the author of a written text using topic-independent features Pertanika Journal of Social Sciences and Humanities, том 26, номер 1, стр.103-112 (год публикации - 2018)

3. Сбоев А.Г., Гудовских Д.В., Молошников И.А., Рыбка Р.Б. A gender identification of text author in mixture of Russian multi-genre texts with distortions on base of data-driven approach using machine learning models AIP Conference Proceedings, - (год публикации - 2019)

4. Сбоев А.Г., Молошников И.А., Гудовских Д.В., Рыбка Р.Б. Data-driven Approaches to Author’s Profiling Identification for Russian Texts on Base of Complex Machine Learning Models in Combinations with Siamese Networks DEStech Transactions on Computer Science and Engineering, - (год публикации - 2018) https://doi.org/10.12783/dtcse/ceic2018/24526

5. Сбоев А.Г., Молошников И.А., Гудовских Д.В., Селиванов А.А.,Рыбка Р.Б.,Литвинова Т.А. Automatic gender identification of author of Russian text by machine learning and neural net algorithms in case of gender deception Procedia Computer Science, том 123, стр.417-423 (год публикации - 2018) https://doi.org/10.1016/j.procs.2018.01.064

6. Сбоев А.Г., Молошников И.А., Гудовских Д.В., Селиванов А.А.,Рыбка Р.Б.,Литвинова Т.А. Deep learning neural nets versus traditional machine learning in gender identification of authors of rusprofiling texts Procedia Computer Science, том 123,стр. 424-431 (год публикации - 2018) https://doi.org/j.procs.2018.01.065

7. Сбоев А.Г., Рыбка Р.Б., Молошников И.А., Гудовских Д.В., Литвинова Т.А. To the question of data-driven identification of author’s age for Russian texts with age deceptions using machine learning Journal of Physics: Conference Series, - (год публикации - 2019)

8. - "Какие наши буквы: ученые узнают возраст по постам в соцсетях" Газета “Известия”, - (год публикации - )


Возможность практического использования результатов
Результаты выполненного проекта обладают высоким потенциалом реализации как для коммерческих, так и для государственных нужд, в таких областях как: адресный маркетинг, безопасность, криминалистика, мониторинг социальной обстановки с помощью сети Интернет, сфера услуг. В рамках данного проекта были получены заделы, обладающие практической значимостью в указанных выше областях, в частности, развиты современные математические модели идентификации пола и возраста автора русскоязычного текста, которые могут быть основой для создания практических систем установления половозрастных характеристик автора, в том числе в случаях, когда автор старается скрыть свои истинные демографические данные (возраст и пол). Также создана методология сбора текстов на основе использования сервисов сети Интернет и краудсорсинг-платформ, сформированы корпуса текстов достаточного объёма для дальнейшего совершенствования методов машинного обучения, повышения их точности и создания эффективных интеллектуальных технологий для определения пола и возраста автора текста. Наличие собранных корпусов текстов: 41624 текста из сервисов сети Интернет и 4332 текста, отвечающих задаче идентификации пола автора с учётом возможного сознательного искажения, 13632 текстов, отвечающих задаче идентификации возраста автора с учётом сознательного искажения, а также других полученных заделов открывают широкие перспективы для поднятия на следующий уровень эффективности определения пола и возраста автора русскоязычного текста при продолжении работ.