Достигнут важный результат в области аналитики Big data

02 Март 2020 - 15:41 | Публикации
Достигнут важный результат в области аналитики Big data

Известно, что качество кластеризации напрямую зависит от структуры данных и используемых методов кластеризации. Эта зависимость проявляется более ярко по мере увеличения объема данных. Методы кластеризации дают различные результаты в зависимости от объема и структуры данных. Поэтому в последнее время для обеспечения эффективности, качества и стабильности результата при кластеризации широко используется ансамбль методов. Одной из самых сложных проблем в это время является определение функции полезности для оценки качества кластеризации.

Определение функции полезности напрямую зависит от множества данных, а также от выбора методов, входящих в ансамбль, и их веса в ансамбле. В предложенном подходе рассматриваются два случая: 1) Если класс каждого объекта, входящего в состав множеств данных, известен заранее, то Чистота (Purity) как функция полезности; 2) если класс объектов, входящих в состав множеств данных, не известен заранее, то в качестве функции полезности выбирается индекс Device-Boldin (Davies-Bouldin). Одним из главных преимуществ метода является то, что вес методов, входящих в ансамбль, определяется на основе консенсуса без вмешательства эксперта. Такое определение веса полностью обеспечивает объективность метода. Предложенный подход к кластеризации взвешенного консенсуса был смоделирован как вопрос оптимизации, и его алгоритм решения был запрограммирован на языке R.

В статье под названием «Weighted consensus clustering and its application to Big data» («Взвешенная консенсусная кластеризация и ее применение к Big data», doi.org/10.1016/j.eswa.2020.113294) оценка метода была проведена в различных аспектах. Чтобы узнать, зависит ли эффективность метода от множества данных были проведены эксперименты на множестве данных разных размеров (малых, средних и больших). Результаты эксперимента показали, что метод кластеризации взвешенного консенсуса дает хорошие результаты, чем рассматривая методы входящие в ансамбль.

Известно, что одним из основных факторов, влияющих на результат кластеризации, является выбор метрики. С этой целью в статье были использованы различные – Евклидовые, косинусные, квадратные Евклидовые, Минковские (p=3 и p=4) и Чебышевские метрики. Результаты эксперимента подтвердили, что квадратное Евклидовое расстояние демонстрирует лучшие результаты как по качеству кластеризации, так и по стабильности результатов с учетом других показателей. Результаты эксперимента показывают, что предлагаемый метод имеет широкие перспективы в области анализа данных больших размеров.

Статья опубликована в журнале «Expert Systems with Applications», который считается очень престижным в области компьютерных наук.  Импакт-фактор журнала равен 4.292, и она включает в себя как «Web of Science», так и класс Q1 в базе «Scopus».

Эта работа выполнена при финансовой поддержке Фонда развития науки при Президенте Азербайджанской Республики. (Грант № EİF-KETPL-2-2015-1(25)-56/05/1)

Авторами  статьи являются вице-президент НАНА, директор Института информационных технологий, академик Расим Алигулиев, заведующий отделом, член-корреспондент НАНА, доктор технических наук Рамиз Алгулиев и старший научный сотрудник, доктор философии по технике, доцент Людмила Сухостат.

© Все права защищены. При использовании информации гиперссылка на сайт www.iсt.az обязательна.