Краткое введение в неконтролируемое обучение

Пространство машинного обучения, которое развивается с течением времени с востока на запад.

Для начала мы должны знать, что машина в первую очередь состоит из четырех основных доменов.

Контролируемое обучение: агент или алгоритм учится на помеченных данных.
Неконтролируемое обучение: агент или алгоритм учится на немаркированных данных, т. е. он находит похожие шаблоны в наборе данных и соответствующим образом группирует их.
Полуконтролируемое обучение: сочетание как контролируемого, так и неконтролируемого обучения.
Обучение с подкреплением: агент или алгоритм изучает модели или поведение, корректируя себя снова и снова, пока не станет лучшим агентом.

Теперь давайте посмотрим на методы, которые относятся к области неконтролируемого обучения.

Кластеризация

Целью кластеризации является создание групп точек данных таким образом, чтобы точки в разных кластерах были непохожими, а точки внутри кластера — похожими.

Кластеризация также имеет свои подкатегории.

1. Кластеризация K-средних

С помощью кластеризации k-средних мы хотим сгруппировать наши точки данных в группы k. Большее k создает меньшие группы с большей степенью детализации, меньшее k означает большие группы и меньшую степень детализации. Это можно сравнить с отдельными толпами людей, окружающих разных известных людей на вечеринке. Плотность толпы зависит от известности этого человека.

2. Иерархическая кластеризация

Иерархическая кластеризация похожа на обычную кластеризацию, но фокусируется на построении иерархии кластеров. Этот тип кластеризации используется на веб-сайтах интернет-магазинов, где на главной странице отображаются широкие категории для простой навигации, и при нажатии на нее будут отображаться дополнительные конкретные категории, связанные с этим. Это объясняет более отчетливую группу предметов.

Уменьшение размерности

1. Анализ основных компонентов:

PCA — это метод уменьшения размерности в неконтролируемом обучении, который используется для уменьшения размерности больших наборов данных до более мелких путем самостоятельного выбора базисных векторов, известных как основные компоненты. PCA перераспределяет пространство, в котором существуют наши данные, чтобы сделать его более сжимаемым. Преобразованный размер меньше исходного размера.

2. K-ближайший сосед

Как определить стоимость дома в конкретном населенном пункте? Мы возьмем среднюю цену домов в близлежащем районе и определим приблизительную цену дома, который собираемся купить. Мы помечаем точку тестовых данных на основе среднего значения выборочных данных в ее окрестности. Мы берем среднее значение значений, если переменные непрерывны, и моду, если они категоричны.

Приложения k-NN:

Помогает в обновлении новых методов обнаружения мошенничества.
Определение цены на жилье и определение температуры в населенном пункте.
Вменение отсутствующих обучающих данных.

3. T-распределенное стохастическое встраивание соседей

Встраивание t-SNE — это алгоритм, используемый для преобразования набора данных высокой размерности в граф низкой размерности, который сохраняет большую часть исходной информации. Он основан на принципе определения сходства всех точек на точечной диаграмме.

Выполненный здесь процесс заключается в измерении расстояния от интересующей нас точки до всех остальных точек и построении этого расстояния на кривой нормального распределения с центром в интересующей нас точке.

Примечание. Мы используем кривую нормального распределения, поскольку удаленные точки имеют низкие значения сходства, а близкие точки — высокие значения сходства.

Теперь он помещает точки данных на числовую прямую в случайном порядке, а t-SNE постепенно перемещает эти точки в зависимости от их значений подобия, пока не сгруппирует их должным образом в более низком измерении.

Генеративное моделирование

1. Генеративно-состязательная сеть

Генеративно-состязательная сеть представляет собой генеративную модель, основанную на глубоком обучении. Генеративные модели — это модели, использующие обучение без учителя. GAN – это система, в которой две нейронные сети соревнуются за создание или создание вариаций в наборе данных.

Он имеет модель генератора и модель дискриминатора. Генераторная сеть берет выборку и генерирует выборку данных, изучая распределение классов. Сеть дискриминатора изучает границы между этими классами, оценивая вероятность того, взята ли выборка из реальной выборки.

Применение ГАН:

Они используются для обработки и генерации изображений.
Они могут быть развернуты для задач понимания риска и восстановления в здравоохранении.
Используется в исследованиях лекарств для создания новых химических структур из существующих.
Мозговой проект Google — интересное приложение GAN.

Основное преимущество GAN заключается в том, чтобы генерировать данные, когда их не так много, без какого-либо контроля со стороны человека.

2. Глубокая сверточная генеративно-состязательная сеть

DCGAN имеет сверточные слои между входным и выходным изображением в генераторе. А в дискриминаторе он использует обычные сверточные сети для классификации сгенерированных и реальных изображений. Архитектура DCGAN:

Слои объединения заменены генераторами и дискриминаторами.
Пакетная нормализация используется как в генераторах, так и в дискриминаторах.
Полностью связанные слои удаляются.
ReLU используется в качестве функции активации в генераторе для всех слоев, кроме выходного.
Функция активации Leaky ReLU используется в дискриминаторе для всех слоев.

3. Перенос стиля

Перенос стиля — это метод, используемый для создания нового изображения путем объединения изображения контента с изображением стиля. Используя это, мы можем сделать изображение окружающей среды намного лучше, потому что оно сочетается со стилем культовых картин.

Активации в нейронной сети контента и изображения стиля должны совпадать с активациями в сгенерированном изображении. Таким образом, передача стиля может сделать любое изображение, сделанное вами в походе, измененным, как знаменитая японская картина Хокусая.