Введение в методы кластеризации

Ваш путь к неконтролируемому машинному обучению

Когда мы слышим об аналитиках данных или людях, работающих в сфере бизнес-аналитики, возникает завуалированное чувство благоговения перед сложностью этих профессий. Однако реальность, лежащая в основе этих ролей, твердо основана на основной истине любого реального конвейера анализа данных, т.е.

Данные обычно начинаются как неструктурированная, некоррелированная гора мешанины. Основная директива любого аналитика данных - сначала разобраться в своих данных, прежде чем начинать какой-либо анализ.

Самый мощный инструмент в поясе любого стоящего аналитика - это кластеризация данных. Сегодня мы подробно рассмотрим различные виды кластеризации и то, как их можно использовать в реальных сценариях.

Что такое кластеризация?

Кластеризация - это алгоритм машинного обучения и популярный метод классификации данных. Он подпадает под категорию алгоритмов машинного обучения без учителя, поскольку полезен при работе с немаркированными и неструктурированными данными.

В этом алгоритме мы обычно имеем дело только с функциями в данных и не имеем никаких целевых меток или классов. Эти алгоритмы обнаруживают скрытые закономерности или группировки данных без необходимости вмешательства человека. Его способность обнаруживать сходства и различия в информации делает его идеальным решением для исследовательского анализа данных.

Другими словами, кластеризация - это метод интеллектуального анализа данных, который классифицирует наборы данных на основе их сходства или различий. Это будет обрабатывать необработанные данные и неклассифицированные объекты данных в группы, представленные структурами или шаблонами в информации. Алгоритмы кластеризации можно разделить на несколько типов, в частности эксклюзивные, перекрывающиеся, иерархические и вероятностные.

Почему кластеризация?

Чтобы сгруппировать элементы, которые могут иметь одинаковые атрибуты, вместе. Было бы полезно представить, что у вас есть миллионы химических соединений, которые вы не можете увидеть, и судить о том, что они пытаются сказать, что между ними похоже. Путем кластеризации вы сгруппируете эти миллионы кластеров, скажем, в 5 или 10 кластеров на основе некоторого сходства между ними, что облегчит вам анализ этих 5 или 10 кластеров, а не просмотр каждого соединения по отдельности.

Типы кластеризации

Мы можем классифицировать данные по различным правилам и параметрам. От простого сходства в значениях данных до сравнения взаимосвязей между точками данных - существует множество способов решения проблемы. Один из способов классифицировать все методы - в формате, приведенном ниже.

Кластеризация на основе разделов
Иерархическая кластеризация
Кластеризация на основе плотности

Мы кратко объясним это, прежде чем перейти к приложениям.

Кластеризация на основе разделов

Учитывая базу данных из n объектов или кортежей данных, метод разделения создает k разделов данных, где каждый раздел представляет кластер.

Этот метод кластеризации классифицирует информацию на несколько групп на основе характеристик и сходства данных. Аналитики данных должны указать количество кластеров, которые должны быть сгенерированы для методов кластеризации.

В методе разделения, когда база данных (D) содержит несколько (N) объектов, тогда метод разделения создает определенные пользователем (K) разделы данных, в которых каждый раздел представляет кластер и конкретную область.

Иерархическая кластеризация

Иерархическая кластеризация , также известная как иерархический кластерный анализ, представляет собой алгоритм, который группирует похожие объекты в группы, называемые кластерами. Конечная точка - это набор кластеров ,, где каждый кластер отличается от другого кластера, а объекты внутри каждого кластера в целом похожи друг на друга.

Иерархическая кластеризация начинается с обработки каждого наблюдения как отдельного кластера. Затем он повторно выполняет следующие два шага: (1) идентифицирует два кластера, которые находятся ближе всего друг к другу, и (2) объединяет два наиболее похожих кластера. Этот итеративный процесс продолжается до тех пор, пока все кластеры не будут объединены.

Кластеризация на основе плотности

Пространственная кластеризация приложений с шумом на основе плотности (DBSCAN) - это хорошо известный алгоритм кластеризации данных, который обычно используется в интеллектуальном анализе данных и машинном обучении. DBSCAN группирует точки, которые расположены близко друг к другу, на основе измерения расстояния (обычно евклидова расстояния) и минимального количества точек. Он также отмечает как выбросы точки, находящиеся в регионах с низкой плотностью.

Пример использования: алгоритм кластеризации K-средств

K означает чрезвычайно популярный алгоритм итеративной кластеризации. Он нацелен на разделение входного набора данных на подгруппы, и в этом каждая точка данных принадлежит только одному кластеру, который нацелен на поиск локальных максимумов на каждой итерации. Этот алгоритм состоит из пяти этапов:

Шаг 0. Найдите подходящий способ визуализации данных. Вы можете выбрать любые 2 или 3 функции, которые имеют отношение к отображению на графике. Мы будем кластеризовать (разбивать) наши данные, сегментируя данные, как показано на графике.

Шаг 1: Выберите количество кластеров (k) количество кластеров K = 3

Шаг 2. Выберите случайный центроид (начальное значение) для каждого кластера.

Шаг 3. Назначьте все точки ближайшему центроиду кластера.

Шаг 4: повторяйте, пока не останется никаких изменений в центроиде. т. е. назначьте каждую точку данных ближайшему кластеру.

Шаг 5: Повторяйте шаги 3 и 4 итеративно, пока мы не достигнем стабильного решения для каждого из K центров кластеров (улучшение в вычислении K становится достаточно небольшим).

Когда эта разница равна 0, мы останавливаем обучение. Давайте теперь визуализируем полученные кластеры.

Алгоритм K-Means Clustering концептуально элегантен в том, как наше решение K в любой проблеме повлияет на то, как данные классифицируются с помощью этого метода. Мы рассмотрим теорию и работу этого алгоритма в последней статье.

Приложения

Давайте посмотрим на некоторые эффективные способы, которыми кластеризация работает в тандеме с другими методами, чтобы улучшить нашу повседневную жизнь.

1. Выявление фейковых новостей

Фальшивые новости - явление не новое, но оно становится все более распространенным в наши дни.

Проблема: фейковые новости создаются и быстро распространяются благодаря технологическим инновациям, таким как социальные сети. Этот вопрос привлек к себе внимание недавно во время президентской кампании в США в 2016 году. В ходе этой кампании термин Fake News упоминался беспрецедентное количество раз.

Как помогает кластеризация. Алгоритм работает таким образом, что он берет содержание фальшивой новостной статьи, корпус, исследует используемые слова и затем группирует их. Эти кластеры помогают алгоритму определять, какие части являются подлинными, а какие - фальшивыми. Определенные слова чаще встречаются в сенсационных статьях, являющихся приманками для кликов. Когда вы видите в статье высокий процент конкретных терминов, это повышает вероятность того, что материал является фальшивой новостью.

2. Выявление мошенничества или преступной деятельности

В этом сценарии мы сосредоточимся на мошенничестве с водителем такси. Однако этот метод использовался во многих сценариях.

Проблема. Вам необходимо расследовать мошеннические действия, связанные с вождением автомобиля. Проблема в том, как определить, что правда, а что ложь?

Как помогает кластеризация: анализируя журналы GPS, алгоритм может группировать похожие поведения. Затем, основываясь на характеристиках групп, вы можете классифицировать их на настоящие и мошеннические.

3. Маркетинг и продажи

Персонализация и таргетинг в маркетинге - это большой бизнес.

Это достигается путем изучения конкретных характеристик человека и обмена с ним кампаниями, которые были успешными с другими похожими людьми.

Проблема: если ваша компания пытается получить максимальную отдачу от вложений в маркетинг, крайне важно правильно нацеливать людей. Если вы сделаете ошибку, вы рискуете не продавать или, что еще хуже, подорвать доверие клиентов.

Как помогает кластеризация. Алгоритмы кластеризации могут объединять людей со схожими чертами характера и вероятностью совершения покупки. Когда у вас есть группы, вы можете запускать тесты для каждой группы с разными маркетинговыми текстами, которые помогут вам лучше направлять им сообщения в будущем.

Мир методов кластеризации огромен, и мы постепенно будем исследовать эффективные методы в будущих статьях.