Прототип K
Точно так же, как K означает, что мы размещаем запись в ближайшем центроиде, здесь мы размещаем запись в кластере, который имеет наиболее похожую контрольную точку, также известную как прототип кластера. известный как центр тяжести кластера. В большей степени, чем сходство, алгоритмы пытаются найти различия между точками данных и пытаются сгруппировать точки с меньшими различиями в кластер.
Мерой различия для числовых атрибутов является квадратное евклидово расстояние, тогда как мерой сходства для категориальных атрибутов является число. сопоставления атрибутов между объектами и прототипами кластеров.
D(x,p) = E(x,p) +λ C(x,p)
где
x = любая точка данных,
y = прототип кластера,
D(x,p) = мера несходства между x и y,
E(x,p) = мера евклидова расстояния на числовые атрибуты, т. е. евклидово расстояние между непрерывными атрибутами x и y,
C(x,p) = мера несхожести простого сопоставления категориальных атрибутов, т. е. количество несовпадающих категориальных атрибутов между x и y,
λ= весовой коэффициент для категориального значения переменной. Вес используется, чтобы не отдавать предпочтение любому типу атрибута.

Шаги
1. Выбирается количество кластеров
2. Случайным образом инициализируются центры кластеров, т. е. центроиды (прототипы) каждого кластера. Популярными подходами являются подходы Хуанга и Цао.
2. После инициализации начальных прототипов (центроидов) мы будем проверять каждую точку данных относительно каждого центроида и назначать точку данных кластеру, центроиды которого отличаются наименьшим образом. После распределения центроид обновляется путем получения значений режима отдельных атрибутов для каждой точки данных в этом кластере.
4. Таким образом, после начального размещения записей можно понять, что начальные центроиды и текущий центроид кластера изменились. Таким образом, с текущим набором центроидов мы перераспределим точки данных в другой кластер, если новый прототип покажет больше сходства.

Он останавливает создание и оптимизацию кластеров, когда:
- центроиды стабилизировались — их значения не изменились, поскольку кластеризация прошла успешно
- было достигнуто заданное количество итераций.
#datascience #алгоритмы машинного обучения #алгоритмы глубокого обучения #data