Классификация против кластеризации в машинном обучении

Вступление

Что такое машинное обучение?

Машинное обучение - популярная область изучения и развития искусственного интеллекта. Это подмножество искусственного интеллекта, который обучает компьютеры выполнять задачи, используя примеры и опыт.
Помощники искусственного интеллекта, онлайн-поиск и машинный перевод - это лишь некоторые из приложений, которые мы регулярно используем, в которых используются методы машинного обучения.

некоторые примеры из реального мира похожи на алгоритм машинного обучения, который поддерживает ваш поток новостей в социальных сетях.

Алгоритм машинного обучения отвечает за рекомендуемый контент, который вы видите на YouTube и Netflix.

Тем временем Discover Weekly Spotify использует алгоритмы машинного обучения для составления плейлиста песен, которые соответствуют вашим вкусам.

Классификация

В машинном обучении и статистике классификация - это метод обучения с учителем, при котором компьютерное программное обеспечение обучается на основе данных и делает новые наблюдения или классификации. Прогнозирование класса точек данных является первым шагом в процедуре. Цель, метка и категории - общие термины. для классов.

Итак, давайте узнаем это на примере

Обнаружение сердечных заболеваний можно классифицировать как проблему бинарной классификации, поскольку существует только два класса: те, у кого есть сердечные заболевания, и те, у кого нет сердечных заболеваний.
В этом сценарии классификатору требуются обучающие данные, чтобы узнать, как входные переменные связаны с классом.
И после того, как классификатор правильно обучен, его можно использовать для определения наличия или отсутствия сердечного заболевания у конкретного пациента.

Поскольку классификация - это тип обучения с учителем, даже целевым объектам также предоставляются входные данные.

что такое двоичная классификация

Это тип классификации с двумя результатами, например, истинным или ложным / 1 или 0.

Алгоритмы классификации

Классификация - это концепция контролируемого обучения в машинном обучении, которая разделяет набор данных на категории. Распознавание речи, распознавание лиц, распознавание почерка, категоризация документов и другие проблемы классификации являются наиболее распространенными. Это может быть либо проблема двоичной классификации, либо проблема нескольких классов.

Ближайший сосед по K

Простое большинство из k ближайших соседей каждой точки используется для ее классификации.
Она контролируется и использует набор идентифицированных точек для маркировки других точек.
Обычно она проверяет отмеченные точки, ближайшие к новой точке. известен как его ближайшие соседи, чтобы обозначить его. Он голосует за этих соседей, и тот ярлык, который набирает наибольшее количество голосов, становится ярлыком новой точки.
Значение «k» относится к количеству соседей, которые он анализирует.

2. Наивный байесовский классификатор

Это метод классификации, основанный на теореме Байеса, в которой предполагается, что предикторы независимы.

Наивный байесовский классификатор, говоря простым языком, утверждает, что существование одной функции в классе не зависит от наличия любой другой функции.

3. Искусственные нейронные сети

Нейронная сеть состоит из слоев нейронов, которые получают входной вектор и преобразуют его в выходной вектор.
Каждый нейрон принимает входные данные и применяет к ним функцию, которая часто является нелинейной функцией, перед передачей вывод на следующий слой.

Данные, перемещающиеся от одного уровня к другому, взвешиваются, и это веса, которые изменяются на этапе обучения, чтобы адаптировать нейронную сеть к любой постановке задачи.

Кластеризация

Кластеризация - это метод машинного обучения, который группирует точки данных вместе. Мы можем использовать метод кластеризации, чтобы разделить каждую точку данных на определенную групповую серию точек данных.

При работе с огромными наборами данных разделение данных на логические группы или кластеры - эффективный подход к их изучению.
Таким образом вы можете извлечь ценность из огромного количества неструктурированных данных.
Это позволяет вам быстро просканируйте данные на предмет шаблонов или структур, прежде чем углубиться в анализ для получения конкретных результатов.

Кластеризация данных помогает обнаружить наборы данных, лежащие в основе структуры, и идентифицирует приложения в разных областях.
Кластеризация, например, может использоваться для выявления заболеваний в области медицины, а также категоризации потребителей в маркетинговых исследованиях.

Алгоритм кластеризации

Доступно множество методов кластеризации, но лишь некоторые из них широко используются.

Тип знаний, которые мы используем, определяет алгоритм кластеризации.

Например, одни алгоритмы должны предсказывать количество кластеров в данном наборе данных, тогда как другие должны находить кратчайшее расстояние между наблюдениями набора данных.

1. Кластеризация на основе центроидов

Кластеризация на основе центроидов объединяет данные в неиерархические группы.
Наиболее часто используемый метод кластеризации на основе центроидов - это k-среднее.
Эффективность алгоритмов на основе центроидов ограничена их чувствительностью к начальному условию и выбросы.

2. Кластеризация на основе плотности

Эти модели ищут точки данных с разной плотностью в пространстве данных и разделяют области с разной плотностью.
Затем точки данных в одной области назначаются кластерам.
Модели плотности, такие как DBSCAN и OPTICS, являются наиболее распространены.

3. Иерархическая кластеризация

Метод сверху вниз, также известный как Divisive Clustering, объединяет все точки данных в один кластер.
Затем он разбивает его на две группы в зависимости от степени их сходства.
Метод продолжается до тех пор, пока нет больше места для разделения кластеров.

Кластеризация против классификации

Классификация - это обучение с учителем, тогда как кластеризация - это подход к обучению без учителя.

Кластеризация группирует похожие экземпляры на основе характеристик, в то время как классификация определяет заранее определенные метки для экземпляров на основе характеристик.

Кластеризация разделяет наборы данных на подмножества, чтобы сгруппировать экземпляры с аналогичной функциональностью. Он не использует размеченные данные или обучающий набор. Напротив, классификация классифицирует новые данные на основе наблюдений из обучающей выборки. Обучающий набор промаркирован.

Примеры

Netflix

Хорошо известным примером применения алгоритмов кластеризации являются рекомендательные системы Netflix. Netflix использует эти кластеры, чтобы уточнить свои знания о вкусах зрителей и, таким образом, принимать более обоснованные решения при создании новых оригинальных сериалов.

Обнаружение мошенничества

В финансовой отрасли часто используется классификация.
В эпоху, когда при совершении покупок в Интернете значительно сократилось использование наличных денег, важно оценить, являются ли транзакции по картам безопасными.
Организации могут использовать прошлые данные о потребителях. поведение, позволяющее идентифицировать транзакции как правильные или мошеннические, что позволяет им очень точно выявлять мошенничество.

заключение

В этой статье мы обсудили различные алгоритмы кластеризации и алгоритм классификации в машинном обучении. Хотя неконтролируемое обучение и машинное обучение в целом - это гораздо больше, в этой статье особое внимание уделяется алгоритмам алгоритмов кластеризации и классификации в машинном обучении и их приложениях.

Спасибо, что прочитали эту статью. Если вам нравится моя статья Классификация против кластеризации в машинном обучении и вы находите эту информацию полезной, поделитесь ею со своими друзьями и коллегами. Если у вас есть какие-либо вопросы или отзывы, напишите нам.