Новый метод кластеризации упрощает анализ больших массивов информации

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».
С каждым годом объем информации, которую нужно обработать, становится все больше. Данные поступают из разных источников: научных исследований, финансовых отчетов, медицинских обследований и множества других. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам. Группы, полученные таким способом, называют кластерами.
Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры (центроиды). Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных.Ученые из НИУ ВШЭ и Института проблем управления имени В.А. Трапезникова РАН предложили новый подход, который упрощает этот процесс, — туннельную кластеризацию. В отличие от метода k-средних, этот алгоритм не требует заранее задавать число кластеров: он сам определяет, сколько кластеров необходимо, анализируя структуру данных.
Фуад Алескеров
«Алгоритм формирует “туннели” данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками, — объясняет руководитель департамента математики факультета экономических наук НИУ ВШЭ Фуад Алескеров. — Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач».
Метод протестировали на синтетическом (сгенерированном) наборе данных из 100 000 объектов, а также на реальных задачах в области государственного управления и банковского сектора.

Главное преимущество нового метода — скорость. В отличие от классических алгоритмов, требующих больших вычислительных ресурсов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее.
Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.
Алексей Мячин
«Люди создают все больше данных, и этот процесс только ускоряется. Согласно последнему отчету “Digital 2025: Global Overview Report”, в начале 2025 года в интернете насчитывалось 5,56 миллиарда пользователей — это почти 68% населения планеты. Взрослые проводят в Cети в среднем по 6 часов 38 минут в день, общаясь, работая, смотря видео и потребляя контент, — рассказывает старший научный сотрудник Международного центра анализа и выбора решений НИУ ВШЭ Алексей Мячин. — Компании, которые игнорируют анализ данных, теряют большие деньги».
Авторы продолжают работать над усовершенствованием алгоритма, включая исследования по снижению размерности данных, что позволит еще больше сократить временные затраты при поиске закономерностей в данных.
Работа выполнена при частичной поддержке РНФ.
Вам также может быть интересно:
Сохранить рациональность в период турбулентности
Международная лаборатория логики, лингвистики и формальной философии НИУ ВШЭ исследует логику и рациональность в изменившемся мире, характеризующемся многообразием логических систем и рациональных агентов. Лаборатория поддерживает и развивает научные связи с российскими и зарубежными партнерами. Новостная служба «Вышка.Главное» побеседовала о ее деятельности с заведующей лабораторией, профессором Еленой Драгалиной-Черной.
Гонка за ресурсами и зеленый переход: три неожиданных вывода исследователей Форсайт-центра о климате и бедности
За фасадом зеленой энергетики, которая для большинства ассоциируется с солнечными панелями, электромобилями и сокращением выбросов СО₂, скрывается сложный узел геополитических интересов, межстранового неравенства и ресурсных ограничений. Ученые из Лаборатории исследований науки и технологий (ЛИНТ) Форсайт-центра ИСИЭЗ НИУ ВШЭ опубликовали цикл статей в ведущих международных журналах о скрытых и явных конфликтах вокруг критически важных металлов и минералов и связанных с ними процессов в энергетике.
Физики ВШЭ и ФИАН научились «фотографировать» звук, чтобы тестировать материалы для связи 6G
Ученые НИУ ВШЭ совместно с коллегами из Физического института имени П.Н. Лебедева РАН разработали метод, который позволяет быстро оценить, насколько прочно пленка сцеплена с подложкой. Это важно для создания сверхвысокочастотных акустических фильтров — ключевых элементов связи нового поколения 5G и 6G. Возможность измерить поперечную жесткость сцепления между пленкой из двумерного материала и подложкой таким способом получена впервые. Результаты исследования опубликованы в журнале Applied Physics Letters.
«Там, где невозможно точно предсказать результат, возникает стохастика»
Международная лаборатория стохастического анализа и его приложений НИУ ВШЭ изучает системы и явления, в которых случайность играет ключевую роль. Цель — прогнозирование различных явлений и их развития. «Вышка.Главное» побеседовала с заведующим лабораторией Владимиром Пановым и ее научным руководителем Валентином Конаковым.
Биологи НИУ ВШЭ обнаружили уникальные свойства микроРНК miR-93-5р при раке предстательной железы
Исследователи факультета биологии и биотехнологии НИУ ВШЭ изучили, как различные формы одной и той же микроРНК влияют на работу генов при аденокарциноме предстательной железы. Оказалось, что в некоторых случаях микроРНК могут усиливать функции друг друга, подавляя одни и те же гены. Работа помогает по-новому взглянуть на молекулярные механизмы развития опухолей и поиск биомаркеров заболевания. Результаты опубликованы в журнале PeerJ.
Математическая физика в Вышке: международный уровень
Международная лаборатория зеркальной симметрии и автоморфных форм НИУ ВШЭ (МЛЗС) и Пекинский институт математических наук и приложений (BIMSA) провели совместную онлайн-конференцию по математической физике. Результаты представленных исследований МЛЗС будут опубликованы в ведущих научных журналах.
Грантовый акселератор: от научной идеи до победы в РНФ
В начале апреля в НИУ ВШЭ прошел интенсив для молодых исследователей университета, планирующих участвовать в конкурсах Российского научного фонда. За день участники услышали от представителей РНФ о приоритетах Фонда, разобрали типичные ошибки в заявках и под руководством опытных грантополучателей проработали архитектуру собственных проектов. Итогом стала готовая основа заявки, которую коллеги смогут доработать и подать на ближайший конкурс.
Тест «КардиоЖизнь» Вышки — в числе победителей премии Data Fusion Awards 2026
Разработка ученых Центра биомедицинских исследований и технологий Института ИИ и цифровых наук ФКН ВШЭ — генетический тест «КардиоЖизнь» — одержала победу в Общероссийской кросс-отраслевой премии в области технологий работы с данными и ИИ Data Fusion Awards. Проект занял первое место в номинации «Партнерство науки и бизнеса», показав успешную модель трансфера технологий из университетской науки в реальный сектор здравоохранения.
Российские ученые узнали, почему европий плохо себя ведет
Европий — редкоземельный металл, который отвечает за чистое красное свечение в дисплеях и других люминесцентных материалах. Долгое время он отказывался светиться в окружении органических молекул‑лигандов — ацилпиразолонов. Химики НИУ ВШЭ и РАН в составе международной команды выяснили причину: в комплексах европия с этими лигандами появляется особое «черное окно» — состояние с переносом заряда, когда энергия от лиганда уходит в тепло, а не в свет. Понимание этого механизма открывает путь к созданию более эффективных красных светящихся материалов для дисплеев, люминесцентных термометров и химических сенсоров. Результаты опубликованы в журнале Dalton Transactions.
«Хотелось бы создать фотонно-интегральную схему, которую можно будет применить на практике»
Научный сотрудник Международной лаборатории квантовой оптоэлектроники НИУ ВШЭ в Санкт-Петербурге Никита Фоминых пришел в Вышку ради творческой атмосферы и возможности проводить эксперименты и исследования на уникальном оборудовании лаборатории. Недавно он защитил кандидатскую диссертацию, посвященную изучению и разработке компонентов для фотонных интегральных схем. О работе в лаборатории и о своих исследовательских планахученый рассказал «Вышке.Главное».


