Эффективное использование информации является одним из основных требований для любого вида коммерческой деятельности. В какой-то момент объем производимых данных выходит за рамки простых возможностей обработки. Вот где машинное обучение срабатывает.

Однако, прежде чем что-либо из этого может произойти, информацию необходимо изучить и осмыслить. Вот для чего в двух словах предназначено неконтролируемое машинное обучение.

В этой статье мы объясним, что такое неконтролируемое машинное обучение, и рассмотрим его основные приложения.

Что такое неконтролируемое машинное обучение?

Неконтролируемое обучение — это тип алгоритма машинного обучения, который упорядочивает набор данных и позволяет разобраться в данных.

Алгоритмы неконтролируемого машинного обучения используются для группировки неструктурированных данных в соответствии с их сходством и различными шаблонами в наборе данных.

Термин «неконтролируемый» относится к тому факту, что алгоритм не управляется, как алгоритм обучения с учителем.

Как это работает?

Неконтролируемый алгоритм обрабатывает данные без предварительного обучения — это функция, которая выполняет свою работу с имеющимися в ее распоряжении данными. В некотором смысле, он остается на его собственных устройствах, чтобы разобраться во всем, как он считает нужным.

Неконтролируемый алгоритм работает с неразмеченными данными. Его цель — разведка. Если контролируемое машинное обучение работает по четко определенным правилам, то неконтролируемое обучение работает в условиях, когда результаты неизвестны и, следовательно, должны быть определены в процессе.

Алгоритм неконтролируемого машинного обучения используется для:

  1. исследоватьструктуру информации;
  2. извлекатьценную информацию;
  3. обнаружение шаблонов;
  4. внедрить это в свою работу, чтобы повысить эффективность.

Другими словами, он описывает информацию — проходит через ее толщу и определяет, чем она является на самом деле.

Для этого в неконтролируемом обучении применяются два основных метода — кластеризация и уменьшение размерности.

Давайте посмотрим на них обоих.

Кластеризация — исследование данных

«Кластеризация» — это термин, используемый для описания исследования данных. Операция кластеризации двояка. Загвоздка в том, что обе части процесса выполняются одновременно.

Кластеризация включает в себя:

  • Определение учетных данных, формирующих требование для каждого кластера. Затем учетные данные сопоставляются с обработанными данными, и таким образом формируются кластеры.
  • Разбивка набора данных на определенные группы (известные как кластеры) на основе их общих характеристик.

Методы кластеризации просты, но эффективны. Они требуют напряженной работы, но часто могут дать нам ценную информацию о данных.

Таким образом, он использовался во многих приложениях на протяжении десятилетий, включая:

  • Биология — для генетической и видовой группировки;
  • Медицинская визуализация — для различения различных видов тканей;
  • Исследование рынка — для понимания различных групп клиентов на основе некоторых характеристик.
  • Рекомендательные системы, такие как предоставление вам лучших предложений Amazon или подборки фильмов Netflix.

Уменьшение размерности — Делаем данные удобоваримыми

В двух словах, уменьшение размерности — это процесс выделения релевантной информации. Это можно также повторить как избавление от ненужных вещей.

Дело в том, что необработанные данные обычно пронизаны толстым слоем информационного шума. Это может быть что угодно — пропущенные значения, ошибочные данные, перепутанные биты, просто что-то не относящееся к делу. Из-за этого, прежде чем вы начнете копаться в поисках идей, вам нужно сначала очистить его.

Вот для чего нужно уменьшение размерности.

С технической точки зрения — уменьшение размерности — это процесс уменьшения сложности данных при сохранении в определенной степени соответствующих частей их структуры.

Примеры неконтролируемого машинного обучения из реальной жизни

Кластеризация k-средних — интеллектуальный анализ данных

Кластеризация K-средних является центральным алгоритмом в неконтролируемой операции машинного обучения. Это алгоритм, который определяет функции, присутствующие в наборе данных, и группирует определенные биты с общими элементами в кластеры.

Таким образом, кластеризация k-средних является незаменимым инструментом в операции интеллектуального анализа данных.

Кроме того — используется в следующих операциях:

  • Сегментация аудитории
  • Исследование личности клиента
  • Обнаружение аномалий (например, для обнаружения активности ботов)
  • Распознавание образов (группировка изображений, расшифровка аудио)
  • Управление запасами (по активности конверсии или по доступности)

Скрытая марковская модель — распознавание образов, обработка естественного языка, анализ данных

Скрытая марковская модель — один из наиболее сложных алгоритмов машинного обучения без учителя. Это статическая модель, которая анализирует характеристики данных и соответствующим образом группирует их.

Скрытая модель Маркова — это разновидность простой цепи Маркова, которая включает наблюдения за состоянием данных. Это добавляет другой взгляд на данные, дает алгоритму больше точек отсчета.

Основные области применения скрытой марковской модели:

  • Оптическое распознавание символов (включая распознавание рукописного ввода)
  • Распознавание и синтез речи (для диалоговых пользовательских интерфейсов)
  • Классификация текста (с маркировкой частей речи)
  • Перевод текста

Кроме того, скрытые марковские модели используются в операциях анализа данных. В этой области HMM используется для целей кластеризации. Он находит связи между объектами в наборе данных и исследует его структуру. Обычно HMM используются для звуковых или видеоисточников информации.

Кластеризация DBSCAN — персонализация обслуживания клиентов, механизмы рекомендаций

Кластеризация DBSCAN, также известная как Пространственная кластеризация приложений с шумом на основе плотности — это еще один подход к кластеризации. Он обычно используется в обработке данных и интеллектуальном анализе данных для следующих действий:

  • Исследуйте структуру информации
  • Найти общие элементы в данных
  • Прогнозировать тенденции на основе данных

В целом работа DBSCAN выглядит так:

  • Алгоритм группирует точки данных, которые находятся в непосредственной близости друг от друга.
  • Затем он сортирует данные в соответствии с выявленными общими чертами.

Алгоритмы DBSCAN используются в следующих областях:

  • Управление ресурсами целевого рекламного контента
  • Персонализация обслуживания клиентов
  • Системы рекомендаций

Анализ основных компонентов (PCA) — визуализация аналитики данных / обнаружение мошенничества

PCA – это алгоритм уменьшения размерности для визуализации данных. Это хороший и простой алгоритм, который делает свою работу и не возится. В большинстве случаев это лучший вариант.

По своей сути PCA представляет собой инструмент для извлечения линейных признаков. Он отображает данные линейным образом по отношению к низкоразмерному пространству.

PCA объединяет входные функции таким образом, что собирает наиболее важные части данных, оставляя нерелевантные биты.

Как инструмент визуализации — PCA хорош для демонстрации операции с высоты птичьего полета. Это может быть хорошим инструментом для:

  • Показать динамику приливов и отливов трафика на сайте.
  • Разбить сегменты целевой аудитории по определенным критериям

t-SNE — Визуализация аналитики данных

t-SNE, также известный как T-распределенное встраивание стохастических соседей, — это еще один популярный алгоритм визуализации данных.

t-SNE использует уменьшение размерности для преобразования многомерных данных в низкоразмерное пространство. Другими словами, покажите сливки набора данных.

Весь процесс выглядит так:

  • Алгоритм подсчитывает вероятность сходства точек в многомерном пространстве.
  • Затем он делает то же самое в соответствующем маломерном пространстве.
  • После этого алгоритм минимизирует разницу между условными вероятностями в многомерном и низкоразмерном пространствах для оптимального представления точек данных в низкоразмерном пространстве.

Таким образом, t-SNE хорош для визуализации более сложных типов данных с множеством движущихся частей и постоянно меняющимися характеристиками. Например, t-SNE подходит для:

  • Визуализация генома в приложении геномики
  • Разбивка медицинских анализов (например, анализ крови или дайджест операционной статистики)
  • Сложная сегментация аудитории (с высокодетализированными сегментами и перекрывающимися элементами)

Разложение по сингулярным значениям (SVD) — Рекомендательные системы

Разложение по сингулярным числам – это алгоритм уменьшения размерности, используемый в исследовательских и интерпретационных целях.

По сути, это алгоритм, который выделяет важные особенности информации в наборе данных и помещает их в центр для дальнейшей работы. Показательный пример — предоставление потребительских предложений, например, какая рубашка и обувь лучше всего подходят к этим рваным ярко-черным джинсам Levi’s.

Короче говоря, он заостряет края и превращает круги в плотно прилегающие квадраты. В некотором смысле SVD повторно присваивает важные элементы информации, чтобы соответствовать конкретной причине.

СВД может использоваться:

  • Чтобы извлечь определенные типы информации из набора данных (например, извлечь информацию о каждом пользователе, проживающем в Тампе, штат Флорида).
  • Делать предложения для конкретного пользователя в системе рекомендательного движка.
  • Курировать рекламный инвентарь для определенного сегмента аудитории во время проведения торгов в режиме реального времени.

Правило ассоциации — Предиктивная аналитика

Правило ассоциации — один из краеугольных алгоритмов машинного обучения без учителя.

Это серия техник, направленных на раскрытие отношений между объектами. Это дает прочную основу для всевозможных предсказаний и расчета вероятности одних событий над другими.

Хотя правила ассоциации можно применять почти везде, лучший способ описать, что именно они делают, — это пример, связанный с электронной коммерцией.

В алгоритмах правил ассоциации применяются три основных показателя.

  • Показатель поддержки показывает, насколько популярен товар по доле транзакций, в которых он фигурирует.
  • Показатель достоверности показывает сходство предмета Б, купленного после того, как был куплен предмет А.
  • Измерение подъемной силы также показывает сходство покупки товара Б после покупки товара А. Однако он добавляет к уравнению уровень спроса на товар B.

***

Секрет получения конкурентного преимущества на конкретном рынке заключается в эффективном использовании данных.

Неконтролируемые алгоритмы машинного обучения позволяют обнаружить реальную ценность конкретного и найти его место в последующих бизнес-операциях. операция.

В этой статье показано, как именно это происходит.

У вас есть идеи относительно данных, которые требуют обучения без учителя? Иди сюда!