Руководство по неконтролируемому машинному обучению

Эффективное использование информации является одним из основных требований для любого вида коммерческой деятельности. В какой-то момент объем производимых данных выходит за рамки простых возможностей обработки. Вот где машинное обучение срабатывает.

Однако, прежде чем что-либо из этого может произойти, информацию необходимо изучить и осмыслить. Вот для чего в двух словах предназначено неконтролируемое машинное обучение.

В этой статье мы объясним, что такое неконтролируемое машинное обучение, и рассмотрим его основные приложения.

Что такое неконтролируемое машинное обучение?

Неконтролируемое обучение — это тип алгоритма машинного обучения, который упорядочивает набор данных и позволяет разобраться в данных.

Алгоритмы неконтролируемого машинного обучения используются для группировки неструктурированных данных в соответствии с их сходством и различными шаблонами в наборе данных.

Термин «неконтролируемый» относится к тому факту, что алгоритм не управляется, как алгоритм обучения с учителем.

Как это работает?

Неконтролируемый алгоритм обрабатывает данные без предварительного обучения — это функция, которая выполняет свою работу с имеющимися в ее распоряжении данными. В некотором смысле, он остается на его собственных устройствах, чтобы разобраться во всем, как он считает нужным.

Неконтролируемый алгоритм работает с неразмеченными данными. Его цель — разведка. Если контролируемое машинное обучение работает по четко определенным правилам, то неконтролируемое обучение работает в условиях, когда результаты неизвестны и, следовательно, должны быть определены в процессе.

Алгоритм неконтролируемого машинного обучения используется для:

исследоватьструктуру информации;
извлекатьценную информацию;
обнаружение шаблонов;
внедрить это в свою работу, чтобы повысить эффективность.

Другими словами, он описывает информацию — проходит через ее толщу и определяет, чем она является на самом деле.

Для этого в неконтролируемом обучении применяются два основных метода — кластеризация и уменьшение размерности.

Давайте посмотрим на них обоих.

Кластеризация — исследование данных

«Кластеризация» — это термин, используемый для описания исследования данных. Операция кластеризации двояка. Загвоздка в том, что обе части процесса выполняются одновременно.

Кластеризация включает в себя:

Определение учетных данных, формирующих требование для каждого кластера. Затем учетные данные сопоставляются с обработанными данными, и таким образом формируются кластеры.
Разбивка набора данных на определенные группы (известные как кластеры) на основе их общих характеристик.

Методы кластеризации просты, но эффективны. Они требуют напряженной работы, но часто могут дать нам ценную информацию о данных.

Таким образом, он использовался во многих приложениях на протяжении десятилетий, включая:

Биология — для генетической и видовой группировки;
Медицинская визуализация — для различения различных видов тканей;
Исследование рынка — для понимания различных групп клиентов на основе некоторых характеристик.
Рекомендательные системы, такие как предоставление вам лучших предложений Amazon или подборки фильмов Netflix.

Уменьшение размерности — Делаем данные удобоваримыми

В двух словах, уменьшение размерности — это процесс выделения релевантной информации. Это можно также повторить как избавление от ненужных вещей.

Дело в том, что необработанные данные обычно пронизаны толстым слоем информационного шума. Это может быть что угодно — пропущенные значения, ошибочные данные, перепутанные биты, просто что-то не относящееся к делу. Из-за этого, прежде чем вы начнете копаться в поисках идей, вам нужно сначала очистить его.

Вот для чего нужно уменьшение размерности.

С технической точки зрения — уменьшение размерности — это процесс уменьшения сложности данных при сохранении в определенной степени соответствующих частей их структуры.

Примеры неконтролируемого машинного обучения из реальной жизни

Кластеризация k-средних — интеллектуальный анализ данных

Кластеризация K-средних является центральным алгоритмом в неконтролируемой операции машинного обучения. Это алгоритм, который определяет функции, присутствующие в наборе данных, и группирует определенные биты с общими элементами в кластеры.

Таким образом, кластеризация k-средних является незаменимым инструментом в операции интеллектуального анализа данных.

Кроме того — используется в следующих операциях:

Сегментация аудитории
Исследование личности клиента
Обнаружение аномалий (например, для обнаружения активности ботов)
Распознавание образов (группировка изображений, расшифровка аудио)
Управление запасами (по активности конверсии или по доступности)

Скрытая марковская модель — распознавание образов, обработка естественного языка, анализ данных

Скрытая марковская модель — один из наиболее сложных алгоритмов машинного обучения без учителя. Это статическая модель, которая анализирует характеристики данных и соответствующим образом группирует их.

Скрытая модель Маркова — это разновидность простой цепи Маркова, которая включает наблюдения за состоянием данных. Это добавляет другой взгляд на данные, дает алгоритму больше точек отсчета.

Основные области применения скрытой марковской модели:

Оптическое распознавание символов (включая распознавание рукописного ввода)
Распознавание и синтез речи (для диалоговых пользовательских интерфейсов)
Классификация текста (с маркировкой частей речи)
Перевод текста

Кроме того, скрытые марковские модели используются в операциях анализа данных. В этой области HMM используется для целей кластеризации. Он находит связи между объектами в наборе данных и исследует его структуру. Обычно HMM используются для звуковых или видеоисточников информации.

Кластеризация DBSCAN — персонализация обслуживания клиентов, механизмы рекомендаций

Кластеризация DBSCAN, также известная как Пространственная кластеризация приложений с шумом на основе плотности — это еще один подход к кластеризации. Он обычно используется в обработке данных и интеллектуальном анализе данных для следующих действий:

Исследуйте структуру информации
Найти общие элементы в данных
Прогнозировать тенденции на основе данных

В целом работа DBSCAN выглядит так:

Алгоритм группирует точки данных, которые находятся в непосредственной близости друг от друга.
Затем он сортирует данные в соответствии с выявленными общими чертами.

Алгоритмы DBSCAN используются в следующих областях:

Управление ресурсами целевого рекламного контента
Персонализация обслуживания клиентов
Системы рекомендаций

Анализ основных компонентов (PCA) — визуализация аналитики данных / обнаружение мошенничества

PCA – это алгоритм уменьшения размерности для визуализации данных. Это хороший и простой алгоритм, который делает свою работу и не возится. В большинстве случаев это лучший вариант.

По своей сути PCA представляет собой инструмент для извлечения линейных признаков. Он отображает данные линейным образом по отношению к низкоразмерному пространству.

PCA объединяет входные функции таким образом, что собирает наиболее важные части данных, оставляя нерелевантные биты.

Как инструмент визуализации — PCA хорош для демонстрации операции с высоты птичьего полета. Это может быть хорошим инструментом для:

Показать динамику приливов и отливов трафика на сайте.
Разбить сегменты целевой аудитории по определенным критериям

t-SNE — Визуализация аналитики данных

t-SNE, также известный как T-распределенное встраивание стохастических соседей, — это еще один популярный алгоритм визуализации данных.

t-SNE использует уменьшение размерности для преобразования многомерных данных в низкоразмерное пространство. Другими словами, покажите сливки набора данных.

Весь процесс выглядит так:

Алгоритм подсчитывает вероятность сходства точек в многомерном пространстве.
Затем он делает то же самое в соответствующем маломерном пространстве.
После этого алгоритм минимизирует разницу между условными вероятностями в многомерном и низкоразмерном пространствах для оптимального представления точек данных в низкоразмерном пространстве.

Таким образом, t-SNE хорош для визуализации более сложных типов данных с множеством движущихся частей и постоянно меняющимися характеристиками. Например, t-SNE подходит для:

Визуализация генома в приложении геномики
Разбивка медицинских анализов (например, анализ крови или дайджест операционной статистики)
Сложная сегментация аудитории (с высокодетализированными сегментами и перекрывающимися элементами)

Разложение по сингулярным значениям (SVD) — Рекомендательные системы

Разложение по сингулярным числам – это алгоритм уменьшения размерности, используемый в исследовательских и интерпретационных целях.

По сути, это алгоритм, который выделяет важные особенности информации в наборе данных и помещает их в центр для дальнейшей работы. Показательный пример — предоставление потребительских предложений, например, какая рубашка и обувь лучше всего подходят к этим рваным ярко-черным джинсам Levi’s.

Короче говоря, он заостряет края и превращает круги в плотно прилегающие квадраты. В некотором смысле SVD повторно присваивает важные элементы информации, чтобы соответствовать конкретной причине.

СВД может использоваться:

Чтобы извлечь определенные типы информации из набора данных (например, извлечь информацию о каждом пользователе, проживающем в Тампе, штат Флорида).
Делать предложения для конкретного пользователя в системе рекомендательного движка.
Курировать рекламный инвентарь для определенного сегмента аудитории во время проведения торгов в режиме реального времени.

Правило ассоциации — Предиктивная аналитика

Правило ассоциации — один из краеугольных алгоритмов машинного обучения без учителя.

Это серия техник, направленных на раскрытие отношений между объектами. Это дает прочную основу для всевозможных предсказаний и расчета вероятности одних событий над другими.

Хотя правила ассоциации можно применять почти везде, лучший способ описать, что именно они делают, — это пример, связанный с электронной коммерцией.

В алгоритмах правил ассоциации применяются три основных показателя.

Показатель поддержки показывает, насколько популярен товар по доле транзакций, в которых он фигурирует.
Показатель достоверности показывает сходство предмета Б, купленного после того, как был куплен предмет А.
Измерение подъемной силы также показывает сходство покупки товара Б после покупки товара А. Однако он добавляет к уравнению уровень спроса на товар B.

***

Секрет получения конкурентного преимущества на конкретном рынке заключается в эффективном использовании данных.

Неконтролируемые алгоритмы машинного обучения позволяют обнаружить реальную ценность конкретного и найти его место в последующих бизнес-операциях. операция.

В этой статье показано, как именно это происходит.

У вас есть идеи относительно данных, которые требуют обучения без учителя? Иди сюда!