КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 18-11-00132

НазваниеАнализ случайных объектов высокой размерности и приложения к задачам обработки больших массивов данных

РуководительНаумов Алексей Александрович, Доктор физико-математических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет "Высшая школа экономики", г Москва

Период выполнения при поддержке РНФ 2018 г. - 2020 г. 

Конкурс№28 - Конкурс 2018 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-110 - Теория вероятностей и математическая статистика

Ключевые словаобнаружение сообществ, кластеризация, случайные матрицы, случайные графы, ковариационные матрицы, многомерные статистики

Код ГРНТИ27.43.00


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Многие теоретические и прикладные задачи в математической физике, машинном обучении, компьютерных науках, теории передачи, хранения и обработки больших объемов информации естественным образом связаны с изучением свойств случайных объектов высокой размерности -- случайных матриц и случайных графов. Исследованию данных объектов посвящены исследования передовых научных групп во всем мире. Настоящий проект нацелен на разработку общих аналитических подходов и методов, позволяющих решать широкий круг важнейших теоретических и прикладных задач, среди которых: исследование спектральных статистик функций от случайных матриц высокой размерности и их приложения; оценивание высокоразмерных ковариационных матриц при наличии ошибок в наблюдениях; анализ динамики сообществ в графах и кластеризация. Полученные результаты могут быть применены для решения прикладных задач, в частности, при изучении сообществ в сетях, надежности прогнозов, полученных с помощью методов машинного обучения и глубинных сетей, а также для оценивания пространственных зависимостей в климатических данных.

Ожидаемые результаты
Проект направлен на создание единого подхода к широкому кругу теоретических и прикладных задач, возникающих при анализе случайных объектов высокой размерности. Разработка такого подхода актуальна для теоретической математики, а полученные результаты могут быть применены для решения прикладных задач, в частности, при изучении сообществ в сетях, надежности прогнозов, полученных с помощью методов машинного обучения и глубинных сетей, а также для оценивания пространственных зависимостей в климатических данных. Планируется получение следующих фундаментальных и прикладных результатов: - Исследование локального поведения спектра (собственного и сингулярного) и универсальности широкого класса функций от случайных матриц. Изучение концентрации нормы случайной матрицы вокруг среднего. Разработка методов оценивания скрытой клики . А также приложения к нахождению точности приближений асимптотическими разложениями для распределений многомерных статистик, которые записываются в терминах спектров случайных матриц большой размерности, в случае нелинейной зависимости статистик от элементов выборки при различных соотношениях между объемом выборки и размерностью наблюдений. - Разработка и имплементация алгоритма поиска сообществ в сетях, основанного на идее множественного статистического тестирования на зазор между каждыми двумя локальными сообществами. Планируется теоретическое обоснование работы алгоритма, а также применение к задачам и реальным данным в биологии, медицине, социальным и интернет сетям. Также планируется изучение динамики сообществ во времени и построение (с теоретическим обоснованием) алгоритма обнаружения разладки в структуре сообществ. - Разработка методов оценивания высокоразмерных разреженных ковариационных матриц при наличии ошибок в наблюдениях. Изучение асимптотических свойств полученных оценок и построение доверительных интервалов. Применение к оценивания пространственных зависимостей в климатических данных. Результаты, полученные по проекту, будут опубликованы в серии статей (не менее 11 за весь период работы) в ведущих отечественных и международных журналах из списков WoS и Scopus, представлены на российских и международных конференциях. Результаты также составят основу одной монографии. Кроме того, они будут включены в 1 кандидатскую диссертацию участников группы и ряд магистерских диссертаций. Все эти результаты будут соответствовать передовому уровню современных мировых исследований. Планируется, что большинство результатов составят основу для курсов, читаемых студентам бакалавриата, магистратуры и аспирантуры ведущих российских университетов и академических центров, в частности на магистерской программе "Статистическая теория обучения" (совместная магистерская программа Сколтеха и НИУ ВШЭ, академический руководитель В.Г. Спокойный).


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2018 году
Коллектив гранта в 2018 году опубликовал следующие результаты: 1. Доказаны неравенство сравнения и анти-концентрации для квадратов норм центрированных гауссовских элементов в произвольном сепарабельном гильбертовом пространстве. Опубликована статья F. Gotze, A. Naumov, V. Spokoiny and V. Ulyanov. Nonasymptotic Estimates for the Closeness of Gaussian Measures on Balls, Doklady Mathematics, 98 (2), 490–493, 2018, https://link.springer.com/article/10.1134%2FS1064562418060248 2. Предложена процедура для построения доверительных множеств для спектральных проекторов ковариационной матрицы, основанная на Байесовском подходе. Доказаны теоретические оценки и проведены численные эксперименты, подтверждающие высокую точность алгоритма. Опубликована статья Silin, V. Spokoiny, Bayesian inference for spectral projectors of the covariance matrix, Electron. J. Statistics., 12, 1948–1987, 2018. DOI:10.1214/18-EJS1451, https://projecteuclid.org/euclid.ejs/1529308884 4. Разработан новый эффективный метод оценивания плотности решения многомерного стохастического дифференциального уравнения типа Маккина Власова при наличии разреженности в спектральном представлении коэффициентов разложения. Получены оптимальные порядки сходимости основанные. Опубликована статья Belomestny, D. and Schoenmakers, J., 2018. Projected Particle Methods for Solving McKean--Vlasov Stochastic Differential Equations. SIAM Journal on Numerical Analysis, 56(6), pp.3169-3195. https://epubs.siam.org/doi/abs/10.1137/17M1111024 4. Изучен вопрос снижения неопределенности в задаче вычисления математических ожиданий по высокоразмерным распределениям. Предложен новый метод снижения неопределенности основанный на минимизации эмпирической дисперсии по классу контрольных функционалов и проведен анализ его сложности. При этом получены новые концентрационные неравенства для квадратичных форм. Опубликована статья Belomestny, D.V., Iosipoi, L.S. and Zhivotovskiy, N.K., Variance Reduction in Monte Carlo Estimators via Empirical Variance Minimization. In Doklady Mathematics (Vol. 98, No. 2, pp. 494-497, 2018, https://link.springer.com/article/10.1134%2FS1064562418060261 Подготовил к публикации препринты: 1. Разработан новый алгоритм для оценивания разреженных ковариационных матриц и их собственных подпространств по последовательно приходящим по времени наблюдениям. Получены неасимптотические оценки скорости сходимости предложенного алгоритма. Опубликована препринт Belomestny, D. and Krymova, E., 2018. Sparse constrained projection approximation subspace tracking, arXiv preprint arXiv:1810.09298, https://arxiv.org/abs/1810.09298 . Статья представлена в журнал. 2. Доказана точная неасимптотическая оценка для отклонения спектральной нормы матрицы инцидентности случайного графа от своего математического ожидания. Доказана аналогичная равномерная оценка для графового процесса Ердеша-Реньи. Подготовлен препринт Lugosi G., Mendelson S., Zhivotovskiy N. Concentration of the spectral norm of Erdős-Rényi random graphs. arXiv preprint arXiv:1801.02157, https://arxiv.org/abs/1801.02157 . Статья представлена в журнал. 3. Доказан локальный закон для собственных значений произведения независимых случайных матриц из ансамбля Гирко-Жинибра в предположении, что существует момента порядка 4 + epsilon у распределений элементов матрицы. Опубликован препринт Goetze, F., Naumov, A., Tikhomirov, A. On Local laws for non-Hermitian random matrices and their products, ArXiV: 1708.06950v2https://arxiv.org/abs/1708.06950. Статья представлена в журнал. 4. Разработаны новые подходы, учитывающие тот факт, что размерность наблюдений p может расти одновременно с объемом выборки n таким образом, что отношение p/n стремится к некоторому числу на интервале (0,1). Предложенный метод позволил получить новые вычислимые оценки порядка log(n)/\sqrt(n) для ошибок приближения распределений многомерных статистик с нелинейной зависимостью от элементов выборки, в частности, для статистик, используемых в многомерном дисперсионном анализе, включая статистики Хотеллинга и Бартлетт-Нанда-Пиллай. На основе полученных результатов подготовлена работа, публикация которой ожидается в 2019 году. 5. Получено оптимальное неравенство, выражающее близость оценки к ковариационной матрице, не зависящее явным образом от размерности задачи. Подготовлен препринт Klochkov, E. Zhivotovskiy, N., Uniform Hanson-Wright type concentration inequalities for unbounded entries via the entropy method, arXiv preprint, arXiv:1812.03548, https://arxiv.org/abs/1812.03548

 

Публикации

1. Беломестный Д. В., Животовский Н. К, Иосипой Л. Снижение дисперсии оценки Монте-Карло методом минимизации эмпирической дисперсии Доклады Академии Наук. Математика., 98. № 2. С. 494-497, 2018 (год публикации - 2018) https://doi.org/10.1134/S1064562418060261

2. Беломестный Д.В., Шоенмакерс Д. PROJECTED PARTICLE METHODS FOR SOLVING MCKEAN−VLASOV STOCHASTIC DIFFERENTIAL EQUATIONS SIAM Journal on Numerical Analysis, Vol. 56. No. 6. P. 3169-3195 (год публикации - 2018) https://doi.org/10.1137/17M1111024

3. Наумов А.А., Спокойный В.Г., Тавыриков Ю.Е., Ульянов В.В. Nonasymptotic Estimates for the Closeness of Gaussian Measures on Balls Doklady Mathematics, 018, Vol. 98, No. 2, pp. 490–493 (год публикации - 2018) https://doi.org/10.1134/S1064562418060248

4. Силин И.В., Спокойный В.Г. Bayesian inference for spectral projectors of the covariance matrix Electronic Journal of Statistics, Vol. 12 (2018) 1948-1987 (год публикации - 2018) https://doi.org/10.1214/18-EJS1451


Аннотация результатов, полученных в 2019 году
1. Доказаны неравенства сравнения и анти-концентрации для квадратов норм нецентрированных гауссовских элементов в произвольном сепарабельном гильбертовом пространстве. Получены оптимальные оценки плотности квадрата нормы гауссовского элемента. Данные оценки играют важную роль в задачах байесовской статики, например,при оценивании влияния выбора априорного распределения, а также вопросе использования байесовских доверительных множеств (credible sets) в качестве классических доверительных множеств. Данные оценки также играют ключевую роль в бутстреп-методе построения доверительных множеств, например, для спектральных проекторов ковариационных матриц. Результаты представлены в работах Goetze F., Naumov A., Spokoiny V., Ulyanov V. V. Large ball probability, Gaussian comparison and anti-concentration // Bernoulli: a journal of mathematical statistics and probability. 2019. Vol. 25. No. 4(A). P. 2538-2563, Large ball probability, Gaussian comparison and anti-concentration и Naumov A., Spokoiny V., Ulyanov V. V. Bootstrap confidence sets for spectral projectors of sample covariance // Probability Theory and Related Fields. 2019. Vol. 174. No. 3-4. P. 1091-1132, Bootstrap confidence sets for spectral projectors of sample covariance 2. Доказан локальный полукруговой закон для симметричных случайных матриц с независимыми элементами при существовании лишь 4 момента у распределений элементов матриц (оптимальные моментные условия). Результат является оптимальным с точносью до логарифмического фактора в некоторой степени. Принимая во внимание тот факт, что существование 4 момента является необходимым и достаточным условием сходимости наибольшего собственного значения к краю носителя полукругового закона, мы допускаем, что данное моментное ограничение является оптимальным. Результаты опубликованы в работе Gotze F., Naumov A., Tikhomirov A. On Optimal Bounds in the Local Semicircle Law under Four Moment Condition // Doklady Mathematics. 2019. Vol. 99. No. 1. P. 40-43, https://link.springer.com/article/10.1134/S1064562419010125 3. Предложен новый метод непараметрического кластерного анализа - метод кластеризации с адаптивными весами (AWC). Метод полностью адаптивный и не требует знания априорной информации о количестве кластеров в данных. Результаты работы робастны по отношению к выбросам и шуму. Метод является скалируемым и вычислительно эффективным. Метод превосходит другие методы кластеризации данных (тестирование проводилось на классических для данной области примерах). Также приводится теоретический анализ работы метода. Результаты опубликованы в K. Efimov, L. Adamyan, V. Spokoiny, Adaptive Nonparametric Clustering, IEEE Transactions on Information Theory, 65, 8, 2019, https://ieeexplore.ieee.org/document/8661771 4. Две работы Belomestny, D., & Goldenshluger, A. (2019). Nonparametric density estimation from observations with multiplicative measurement errors, accepted for publication in Annales de l'Institut Henri Poincaré, Probabilités et Statistiques, https://imstat.org/journals-and-publications/annales-de-linstitut-henri-poincare/annales-de-linstitut-henri-poincare-accepted-papers. и [Mendelson and Zhivotovskiy, 2019] Mendelson S., & Zhivotovskiy N. (2019). Robust covariance estimation under L_4-L_2 moment equivalence, accepted for publication in Annals of Statistics. https://imstat.org/journals-and-publications/annals-of-statistics/annals-of-statistics-future-papers/ приняты к печати и будут опубликованы в 2020 году.

 

Публикации

1. Гётце Ф., Наумов А.А., Спокойный В.Г., Ульянов В.В. Large ball probabilities, Gaussian comparison and anti-concentration Bernoulli, 25, 4A, 2538-2563 (год публикации - 2019) https://doi.org/10.3150/18-BEJ1062

2. Гётце Ф., Наумов А.А., Тихомиров А.Н. On Optimal Bounds in the Local Semicircle Law under Four Moment Condition Doklady Mathematics, 99, 1, 40-43 (год публикации - 2019) https://doi.org/10.1134/S1064562419010125

3. Ефимов К., Адамян Л., Спокойный В.Г. Adaptive Nonparametric Clustering IEEE Transactions on Information Theory, 65, 8, 4875-4892 (год публикации - 2019) https://doi.org/10.1109/TIT.2019.2903113

4. Наумов А.А., Спокойный В.Г., Ульянов В.В. Bootstrap confidence sets for spectral projectors of sample covariance Probability Theory and Related Fields, 174, 1091-1132 (год публикации - 2019) https://doi.org/10.1007/s00440-018-0877-2


Аннотация результатов, полученных в 2020 году
Доказаны моментные неравенства для линейных и нелинейных статистик от независимых случайных величин. В частности, из данных неравенств выводятся приложения к оцениванию моментов линейных форм, \(U\)-статистик и возмущения характеризационного уравнения для преобразования Стилтьеса полукругового закона Вигнера. Результаты опубликованы в журнале F. Gotze, A. Naumov, A. Tikhomirov, Moment Inequalities for Linear and Nonlinear Statistics, Theory Probability and its Applications, 65 (1), 1-16, 2020, http://dx.doi.org/10.1137/S0040585X97T989787 Продолжено изучение локального полукругового закона при 4-х моментах. Получены соответствующие оценки локализации собственных значений и делокализации собственных векторов, оценки скорости сходимости к полукруговому закону Вигнера в метрике Колмогорова при 4 моментах. Доказана оценка порядка 1/n (с точностью до логарифмического фактора в 12 степени) в полукруговом законе Вигнера для эмпирической функции распределения. Результаты опубликованы в работе F. Gotze, A. Naumov, A. Tikhomirov, Local Semicircle Law Under Fourth Moment Condition, Journal of Theoretical Probability, 33, 1327–1362, 2020, https://doi.org/10.1007/s10959-019-00907-y Была изучена задача поточечной оценки многомерной плотности из наблюдений с мультипликативным шумом. Выяснена основная особенность данной задачи: влияние точки оценивания на точность оценки. В частности, показано, что в зависимости от того, отделена эта точка от нуля или нет, существуют два различных режима с точки зрения скоростей сходимости риска. В обоих режимах предложены ядерные оценки и доказаны верхние границы для их максимального риска равномерные по подходящим непараметрическим классам плотностей. Путем установления соответствующих нижних границ для минимаксного риска показано что полученные оценки оптимальны. Результаты опубликованы в работе Belomestny, D.; Goldenshluger, A. Nonparametric density estimation from observations with multiplicative measurement errors, Annales de l'institut Henri Poincare (B) Probability and Statistics, 2020, 56(1), pp. 36-37. doi:10.1214/18-AIHP954, https://projecteuclid.org/euclid.aihp/1580720482 Доказано того, что в обобщенных случайных графах со случайными весами в вершинах расстояние по вариации между распределением числа замкнутых циклов фиксированной длины и соответствующим распределением Пуассона имеет порядок O(n^{-1/2}). Найдены оценки точности приближения распределений статистик, построенных по выборкам случайного размера, асимптотическими разложениями 2-го порядка типа Чебышева-Эджворта и для квантилей -- разложениями Корниша-Фишера, в частности, для выборочных средних и медиан. При этом определены классы распределений для случайного размера выборок, при которых предельные распределения для выборочных медиан являются известными распределениями: t-распределением Стьюдента, нормальным распределением или распределением Лапласа (для различных значений параметров распределений) и их квантилей. Результаты опубликованы в монографии Fujikoshi Y., Ulyanov V. V. Non-Asymptotic Analysis of Approximations for Multivariate Statistics. — Springer: Springer Nature, Singapore, 2020. — 130 p., https://www.springer.com/gp/book/9789811326158

 

Публикации

1. Беломестный Д., Гольденшлюгер А. Nonparametric density estimation from observations with multiplicative measurement errors Annales de l’Institut Henri Poincaré - Probabilités et Statistiques, 2020, Vol. 56, No. 1, 36–67 (год публикации - 2020)

2. Борденав Ч., Лугоши Г., Животовский Н. Noise sensitivity of the top eigenvector of a Wigner matrix Probability Theory and Related Fields, 177:1103–1135 (год публикации - 2020)

3. Гетце Ф., Наумов А., Тихомиров А. Local Semicircle Law Under Fourth Moment Condition Journal of Theoretical Probability, 33, 1327–1362, 2020 (год публикации - 2020) https://doi.org/10.1007/s10959-019-00907-y

4. Гетце Ф., Наумов А., Тихомиров А. Local laws for non-Hermitian random matrices and their products Random Matrices: Theory and Applications, 09 (04), 2150004 (год публикации - 2020) https://doi.org/10.1142/S2010326321500040

5. Гетце Ф., Наумов А., Тихомиров А. Moment Inequalities for Linear and Nonlinear Statistics Theory of Probability and Its Applications, 65(1), 1–16 (год публикации - 2020) https://doi.org/10.1137/S0040585X97T989787

6. Мендельсон Ш., Животовский Н. ROBUST COVARIANCE ESTIMATION UNDER L4 − L2 NORM EQUIVALENCE The Annals of Statistics, 48 (3), 1648-1664. (год публикации - 2020)

7. Ульянов В., Фуджикоши Я. Non-Asymptotic Analysis of Approximations for Multivariate Statistics Springer, Singapore, - (год публикации - 2020) https://doi.org/10.1007/978-981-13-2616-5


Возможность практического использования результатов
не указано