Неконтролируемое обучение

Здравствуйте, я дам вам информацию о неконтролируемом обучении :)

Самый короткий и общий ответ на то, что такое обучение без учителя, можно сказать, что обучение без учителя — это тип обучения без зависимой переменной, и мы применяем этот тип обучения к связанным наборам данных. Независимые переменные не могут быть связаны ни с одной зависимой переменной.

Наша главная цель — сосредоточиться на определенных сегментах наблюдения в наборе данных. Мы сгруппируем их в соответствии с расстояниями наблюдений в наборе данных. Можно привести такие примеры, как сегментация клиентов, криминальные районы в месте, группировка региона по доходным группам и т.д.

Типы методов кластеризации обучения без учителя, о которых я буду говорить, — это k-средние, иерархическая кластеризация и анализ основных компонентов (PCA).

К-СРЕДНИЕ

K-means — это метод кластеризации. Цель состоит в том, чтобы классифицировать наблюдения в соответствии с их сходством друг с другом. Здесь важно то, что кластеры должны быть однородными внутри себя и неоднородными по отношению друг к другу. Алгоритм, который будет использоваться в этом методе, представляет собой алгоритм KNN (алгоритм k-ближайших соседей).

=›Давайте поговорим о шагах.

Шаг 1: определяется количество кластеров.

Шаг 2: случайно выбранные центры k

Шаг 3: Расстояния до центров «k» рассчитываются для каждого наблюдения.

Шаг 4: Каждое наблюдение назначается центру/кластеру, к которому оно ближе всего.

Шаг 5: После назначения для сформированных кластеров снова будут произведены расчеты центров.

Шаг 6: Этот процесс повторяется для указанного количества итераций. Кластерная структура наблюдений выбирается в качестве окончательного кластера, когда общая внутрикластерная вариация минимальна.

K-Means/Определение оптимального количества кластеров

Метод локтя можно использовать для определения оптимального количества кластеров. Этот метод легко подскажет, сколько оптимальных кластеров у нас должно быть.

Однако здесь есть важный момент. Нахождение оптимального количества кластеров этим методом не всегда может дать хорошие результаты. Алгоритм может не знать деталей предметной области. Если оставить это полностью на усмотрение алгоритма, это может привести к плохим результатам. Конечно, в очень больших наборах данных результат можно оставить на усмотрение алгоритма.

Иерархическая кластеризация

Цель состоит в том, чтобы разделить наблюдения на подмножества в соответствии с их сходством друг с другом. Опять же, мы группируем наблюдения. Итак, в чем разница с k-средними?

Мы делили только на определенное количество кластеров с помощью k-средних. С помощью этого метода мы можем как разделить наши данные на определенное количество кластеров, так и постоянно делить их на новые кластеры. Таким образом, он используется, если желательно разделить наблюдения на большее количество подмножеств.

=›Метод иерархической кластеризации сам по себе имеет два типа методов. Это агломеративный и дивизионный метод. Метод дивизиона является противоположностью агломеративному методу.

Развод; все наблюдения находятся в одном кластере вместе. Затем кластер разбивается на два подмножества. Позже эти кластеры делятся на непохожие друг на друга подмножества. Этот процесс продолжается до тех пор, пока не будет получено подмножество количества наблюдений. Например, если в нашем наборе данных 1000 наблюдений, каждое наблюдение продолжается до тех пор, пока оно не станет кластером.

Агломерат; Этот метод противоположен разделительному процессу. То есть в начале исследования все наблюдения стоят отдельно. Например, если имеется 1000 единиц наблюдения, имеется 1000 кластеров. Эти кластеры объединяются в соответствии с их сходством друг с другом путем слияния вверх. Новые кластерные структуры формируются вверх.

Анализ основных компонентов (PCA)

PCA — это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных. Основная идея состоит в том, чтобы представить данные с меньшим количеством переменных. Будет небольшая потеря информации, которую мы учитываем при этом.

Например, допустим, у нас есть 100 переменных, и эти 100 переменных содержат информацию. Мы пытаемся представить эту информацию с менее чем 100 переменными.

PCA обычно используется для некоторых проблем, возникающих в моделях обработки изображений и регрессии. Особенно в регрессионных моделях, когда в наборе данных слишком много переменных, если некоторые из переменных связаны друг с другом, возникает проблема мультиколлинеарности. В этом случае при применении МГК проблема мультиколлинеарности между переменными исчезает. Корреляция между результирующими компонентами после восстановления отсутствует.

=›Так как это работает в фоновом режиме?

Это происходит путем нахождения собственных значений или собственных векторов ковариационных или корреляционных матриц. Собственные значения, выражающие дисперсии групп переменных и переменных в наборе данных, группируются. Группы с наибольшей дисперсией среди групп являются наиболее важными группами, которые мы называем основными компонентами.

Для связанных и подробных кодов:

https://github.com/minekucukavsar/unsupervised_learning/blob/main/unsupervised_learning.py

Береги себя:)

Неконтролируемое обучение

К-СРЕДНИЕ

Иерархическая кластеризация

Анализ основных компонентов (PCA)

Похожие вопросы