Кластеризация K-средних и ее приложения в области безопасности

Кластеризация является одним из наиболее распространенных методов исследовательского анализа данных, используемых для получения интуитивного представления о структуре данных. Его можно определить как задачу идентификации подгрупп в данных таким образом, чтобы точки данных в одной и той же подгруппе (кластере) были очень похожи, а точки данных в разных кластерах сильно различались. Другими словами, мы пытаемся найти однородные подгруппы в данных, чтобы точки данных в каждом кластере были как можно более похожими в соответствии с мерой подобия, такой как евклидово расстояние или расстояние на основе корреляции. Решение о том, какую меру подобия использовать, зависит от приложения.

Кластеризация используется в алгоритме обучения без учителя в машинном обучении, поскольку с его помощью можно разделить многомерные данные на различные группы без какого-либо руководителя на основе общего шаблона, скрытого внутри наборов данных.

Что такое неконтролируемое обучение?

Неконтролируемое обучение — это когда вы обучаете алгоритм машинного обучения, но не даете ему ответа на проблему. В неконтролируемом обучении машина использует немаркированные данные и учится сама по себе без какого-либо контроля. Машина пытается найти закономерность в неразмеченных данных и дает ответ.

Что такое кластеризация k-средних?

Кластеризация K-средних — это алгоритм обучения без учителя. Для этой кластеризации нет размеченных данных, в отличие от обучения с учителем. K-Means выполняет разделение объектов на кластеры, которые имеют сходство и отличаются от объектов, принадлежащих другому кластер. Алгоритм кластеризации K-средних – это итеративный процесс, в котором вы пытаетесь минимизировать расстояние между точкой данных и средней точкой данных в кластере.

Термин «К» — это число. Вам нужно сообщить системе, сколько кластеров вам нужно создать. Например, K = 2 относится к двум кластерам. Существует способ выяснить, какое значение K является лучшим или оптимальным для заданных данных.

Как работает кластеризация K-средних?

На блок-схеме ниже показано, как работает кластеризация k-средних:

Цель алгоритма K-Means — найти кластеры в заданных входных данных. Есть несколько способов сделать это. Мы можем использовать метод проб и ошибок, указав значение K (например, 3,4, 5). По мере продвижения мы продолжаем изменять значение, пока не получим лучшие кластеры.

Другой метод заключается в использовании метода локтя для определения значения K. Как только мы получим значение K, система случайным образом назначит столько центроидов и измерит расстояние каждой из точек данных от этих центроидов. Соответственно, он присваивает соответствующим центроидам те точки, расстояние от которых минимально. Таким образом, каждая точка данных будет привязана к ближайшему к ней центроиду. Таким образом, у нас есть K начальных кластеров.

Для вновь образованных кластеров он вычисляет новое положение центроида. Положение центроида перемещается по сравнению со случайно выделенным.

Как выбрать значение «Количество кластеров K» в кластеризации K-средних?

Производительность алгоритма кластеризации K-средних зависит от высокоэффективных кластеров, которые он формирует. Но выбор оптимального количества кластеров — большая задача. Есть несколько разных способов найти оптимальное количество кластеров, но здесь мы обсуждаем наиболее подходящий метод для нахождения количества кластеров или значения K.

Где мы можем применить k-means?

k-means обычно можно применять к данным, которые имеют меньшее количество измерений, являются числовыми и непрерывными. подумайте о сценарии, в котором вы хотите сделать группы похожих вещей из случайно распределенного набора вещей; k-means очень подходит для таких сценариев.

Выявление мест совершения преступлений

с данными, связанными с преступлениями, доступными в определенных местах в городе, категория преступления, район преступления и связь между ними могут дать качественное представление о склонных к преступности районах в городе или населенном пункте.

Выявление страхового мошенничества

Машинное обучение играет решающую роль в обнаружении мошенничества и имеет многочисленные приложения для обнаружения мошенничества в автомобилях, здравоохранении и страховании. используя прошлые исторические данные о мошеннических заявках, можно выделить новые претензии на основе их близости к кластерам, которые указывают на мошеннические схемы. поскольку страховое мошенничество потенциально может иметь многомиллионные последствия для компании, способность обнаруживать мошенничество имеет решающее значение.

Киберпрофилирование преступников

киберпрофилирование — это процесс сбора данных от отдельных лиц и групп для выявления существенных взаимосвязей. Идея киберпрофилирования основана на профилях преступников, которые предоставляют информацию о следственном отделе для классификации типов преступников, находившихся на месте преступления.

Автоматическая кластеризация его предупреждений

Компоненты технологии ИТ-инфраструктуры крупного предприятия, такие как сеть, хранилище или база данных, генерируют большие объемы предупреждающих сообщений. поскольку предупреждающие сообщения потенциально указывают на операционные проблемы, они должны проверяться вручную для определения приоритетов для последующих процессов. кластеризация данных может дать представление о категориях предупреждений и среднем времени ремонта, а также помочь в прогнозировании отказов.