Эффективное использование информации является одним из основных требований для любого вида коммерческой деятельности. В какой-то момент объем производимых данных выходит за рамки простых возможностей обработки. Вот где машинное обучение срабатывает.
Однако, прежде чем что-либо из этого может произойти, информацию необходимо изучить и осмыслить. Вот для чего в двух словах предназначено неконтролируемое машинное обучение.
В этой статье мы объясним, что такое неконтролируемое машинное обучение, и рассмотрим его основные приложения.
Что такое неконтролируемое машинное обучение?
Неконтролируемое обучение — это тип алгоритма машинного обучения, который упорядочивает набор данных и позволяет разобраться в данных.
Алгоритмы неконтролируемого машинного обучения используются для группировки неструктурированных данных в соответствии с их сходством и различными шаблонами в наборе данных.
Термин «неконтролируемый» относится к тому факту, что алгоритм не управляется, как алгоритм обучения с учителем.
Как это работает?
Неконтролируемый алгоритм обрабатывает данные без предварительного обучения — это функция, которая выполняет свою работу с имеющимися в ее распоряжении данными. В некотором смысле, он остается на его собственных устройствах, чтобы разобраться во всем, как он считает нужным.
Неконтролируемый алгоритм работает с неразмеченными данными. Его цель — разведка. Если контролируемое машинное обучение работает по четко определенным правилам, то неконтролируемое обучение работает в условиях, когда результаты неизвестны и, следовательно, должны быть определены в процессе.
Алгоритм неконтролируемого машинного обучения используется для:
- исследоватьструктуру информации;
- извлекатьценную информацию;
- обнаружение шаблонов;
- внедрить это в свою работу, чтобы повысить эффективность.
Другими словами, он описывает информацию — проходит через ее толщу и определяет, чем она является на самом деле.
Для этого в неконтролируемом обучении применяются два основных метода — кластеризация и уменьшение размерности.
Давайте посмотрим на них обоих.
Кластеризация — исследование данных
«Кластеризация» — это термин, используемый для описания исследования данных. Операция кластеризации двояка. Загвоздка в том, что обе части процесса выполняются одновременно.
Кластеризация включает в себя:
- Определение учетных данных, формирующих требование для каждого кластера. Затем учетные данные сопоставляются с обработанными данными, и таким образом формируются кластеры.
- Разбивка набора данных на определенные группы (известные как кластеры) на основе их общих характеристик.
Методы кластеризации просты, но эффективны. Они требуют напряженной работы, но часто могут дать нам ценную информацию о данных.
Таким образом, он использовался во многих приложениях на протяжении десятилетий, включая:
- Биология — для генетической и видовой группировки;
- Медицинская визуализация — для различения различных видов тканей;
- Исследование рынка — для понимания различных групп клиентов на основе некоторых характеристик.
- Рекомендательные системы, такие как предоставление вам лучших предложений Amazon или подборки фильмов Netflix.
Уменьшение размерности — Делаем данные удобоваримыми
В двух словах, уменьшение размерности — это процесс выделения релевантной информации. Это можно также повторить как избавление от ненужных вещей.
Дело в том, что необработанные данные обычно пронизаны толстым слоем информационного шума. Это может быть что угодно — пропущенные значения, ошибочные данные, перепутанные биты, просто что-то не относящееся к делу. Из-за этого, прежде чем вы начнете копаться в поисках идей, вам нужно сначала очистить его.
Вот для чего нужно уменьшение размерности.
С технической точки зрения — уменьшение размерности — это процесс уменьшения сложности данных при сохранении в определенной степени соответствующих частей их структуры.
Примеры неконтролируемого машинного обучения из реальной жизни
Кластеризация k-средних — интеллектуальный анализ данных
Кластеризация K-средних является центральным алгоритмом в неконтролируемой операции машинного обучения. Это алгоритм, который определяет функции, присутствующие в наборе данных, и группирует определенные биты с общими элементами в кластеры.
Таким образом, кластеризация k-средних является незаменимым инструментом в операции интеллектуального анализа данных.
Кроме того — используется в следующих операциях:
- Сегментация аудитории
- Исследование личности клиента
- Обнаружение аномалий (например, для обнаружения активности ботов)
- Распознавание образов (группировка изображений, расшифровка аудио)
- Управление запасами (по активности конверсии или по доступности)
Скрытая марковская модель — распознавание образов, обработка естественного языка, анализ данных
Скрытая марковская модель — один из наиболее сложных алгоритмов машинного обучения без учителя. Это статическая модель, которая анализирует характеристики данных и соответствующим образом группирует их.
Скрытая модель Маркова — это разновидность простой цепи Маркова, которая включает наблюдения за состоянием данных. Это добавляет другой взгляд на данные, дает алгоритму больше точек отсчета.
Основные области применения скрытой марковской модели:
- Оптическое распознавание символов (включая распознавание рукописного ввода)
- Распознавание и синтез речи (для диалоговых пользовательских интерфейсов)
- Классификация текста (с маркировкой частей речи)
- Перевод текста
Кроме того, скрытые марковские модели используются в операциях анализа данных. В этой области HMM используется для целей кластеризации. Он находит связи между объектами в наборе данных и исследует его структуру. Обычно HMM используются для звуковых или видеоисточников информации.
Кластеризация DBSCAN — персонализация обслуживания клиентов, механизмы рекомендаций
Кластеризация DBSCAN, также известная как Пространственная кластеризация приложений с шумом на основе плотности — это еще один подход к кластеризации. Он обычно используется в обработке данных и интеллектуальном анализе данных для следующих действий:
- Исследуйте структуру информации
- Найти общие элементы в данных
- Прогнозировать тенденции на основе данных
В целом работа DBSCAN выглядит так:
- Алгоритм группирует точки данных, которые находятся в непосредственной близости друг от друга.
- Затем он сортирует данные в соответствии с выявленными общими чертами.
Алгоритмы DBSCAN используются в следующих областях:
- Управление ресурсами целевого рекламного контента
- Персонализация обслуживания клиентов
- Системы рекомендаций
Анализ основных компонентов (PCA) — визуализация аналитики данных / обнаружение мошенничества
PCA – это алгоритм уменьшения размерности для визуализации данных. Это хороший и простой алгоритм, который делает свою работу и не возится. В большинстве случаев это лучший вариант.
По своей сути PCA представляет собой инструмент для извлечения линейных признаков. Он отображает данные линейным образом по отношению к низкоразмерному пространству.
PCA объединяет входные функции таким образом, что собирает наиболее важные части данных, оставляя нерелевантные биты.
Как инструмент визуализации — PCA хорош для демонстрации операции с высоты птичьего полета. Это может быть хорошим инструментом для:
- Показать динамику приливов и отливов трафика на сайте.
- Разбить сегменты целевой аудитории по определенным критериям
t-SNE — Визуализация аналитики данных
t-SNE, также известный как T-распределенное встраивание стохастических соседей, — это еще один популярный алгоритм визуализации данных.
t-SNE использует уменьшение размерности для преобразования многомерных данных в низкоразмерное пространство. Другими словами, покажите сливки набора данных.
Весь процесс выглядит так:
- Алгоритм подсчитывает вероятность сходства точек в многомерном пространстве.
- Затем он делает то же самое в соответствующем маломерном пространстве.
- После этого алгоритм минимизирует разницу между условными вероятностями в многомерном и низкоразмерном пространствах для оптимального представления точек данных в низкоразмерном пространстве.
Таким образом, t-SNE хорош для визуализации более сложных типов данных с множеством движущихся частей и постоянно меняющимися характеристиками. Например, t-SNE подходит для:
- Визуализация генома в приложении геномики
- Разбивка медицинских анализов (например, анализ крови или дайджест операционной статистики)
- Сложная сегментация аудитории (с высокодетализированными сегментами и перекрывающимися элементами)
Разложение по сингулярным значениям (SVD) — Рекомендательные системы
Разложение по сингулярным числам – это алгоритм уменьшения размерности, используемый в исследовательских и интерпретационных целях.
По сути, это алгоритм, который выделяет важные особенности информации в наборе данных и помещает их в центр для дальнейшей работы. Показательный пример — предоставление потребительских предложений, например, какая рубашка и обувь лучше всего подходят к этим рваным ярко-черным джинсам Levi’s.
Короче говоря, он заостряет края и превращает круги в плотно прилегающие квадраты. В некотором смысле SVD повторно присваивает важные элементы информации, чтобы соответствовать конкретной причине.
СВД может использоваться:
- Чтобы извлечь определенные типы информации из набора данных (например, извлечь информацию о каждом пользователе, проживающем в Тампе, штат Флорида).
- Делать предложения для конкретного пользователя в системе рекомендательного движка.
- Курировать рекламный инвентарь для определенного сегмента аудитории во время проведения торгов в режиме реального времени.
Правило ассоциации — Предиктивная аналитика
Правило ассоциации — один из краеугольных алгоритмов машинного обучения без учителя.
Это серия техник, направленных на раскрытие отношений между объектами. Это дает прочную основу для всевозможных предсказаний и расчета вероятности одних событий над другими.
Хотя правила ассоциации можно применять почти везде, лучший способ описать, что именно они делают, — это пример, связанный с электронной коммерцией.
В алгоритмах правил ассоциации применяются три основных показателя.
- Показатель поддержки показывает, насколько популярен товар по доле транзакций, в которых он фигурирует.
- Показатель достоверности показывает сходство предмета Б, купленного после того, как был куплен предмет А.
- Измерение подъемной силы также показывает сходство покупки товара Б после покупки товара А. Однако он добавляет к уравнению уровень спроса на товар B.
***
Секрет получения конкурентного преимущества на конкретном рынке заключается в эффективном использовании данных.
Неконтролируемые алгоритмы машинного обучения позволяют обнаружить реальную ценность конкретного и найти его место в последующих бизнес-операциях. операция.
В этой статье показано, как именно это происходит.
У вас есть идеи относительно данных, которые требуют обучения без учителя? Иди сюда!