Кластеризация — это процесс группировки похожих элементов данных вместе, так что те, которые более похожи друг на друга в зависимости от некоторых критериев подобия, группируются в один и тот же кластер.

Кластерный анализ широко используется во многих приложениях, таких как

кластерный анализ,
например, исследование рынка,
распознавание образов,
данные социальных сетей для поиска группы похожих пользователей,
данные электронной медицинской карты (EHR) для поиска похожих пациентов.

Кластеризация выполняется с использованием алгоритмов кластеризации, которые являются частью категории методов неконтролируемого машинного обучения. Неконтролируемые алгоритмы машинного обучения ищут шаблоны и скрытую структуру в данных, для которых нет данных для обучения.

Это метод обучения без учителя, что означает, что алгоритм не контролируется и работает с немаркированным набором данных.

Алгоритм кластеризации изображен на диаграмме выше. Как можно показать, многие формы подразделяются на несколько групп со сравнимыми качествами.

Каждому кластеру присваивается номер, называемый идентификатором кластера, после того, как он был кластеризован. Теперь вы можете объединить полный набор функций примера в его идентификатор кластера. Кластеризация становится мощной благодаря представлению сложного примера с простым идентификатором кластера. Расширяя концепцию, кластеризация данных может упростить понимание огромных наборов данных.