Обучение под наблюдением стало проще

В предыдущих статьях у нас было краткое введение в искусственный интеллект и машинное обучение. В этой статье мы начинаем знакомить вас с первой техникой машинного обучения — обучением с учителем.

Что такое контролируемое обучение

Если мы читаем Википедию, мы можем прочитать такое определение контролируемого обучения:

Обучение с учителем (SL) — это задача машинного обучения для изучения функции, которая сопоставляет входные данные с выходными данными на основе примеров пар входных и выходных данных. Он выводит функцию изпомеченных обучающих данных, состоящих из набораобучающих примеров. В обучении с учителем каждый пример представляет собойпару, состоящую из входного объекта (обычно вектора) и требуемого выходного значения (также называемогоконтрольным сигналом).

Однако для лучшего понимания того, как работает контролируемый алгоритм, давайте определим некоторые основные термины, полезные для построения наших алгоритмов.

Как мы знаем, топливом каждого алгоритма машинного обучения являются данные, алгоритм обучения с учителем, используемый в качестве входных данных набор данных как набор размеченных данных.

Более формально мы можем описать набор размеченных данных следующим образом:

Каждый элемент xi среди N называется вектором признаков. Вектор признаков – это вектор, в котором каждое измерение, j=1,…., N, содержит значение, описывающее анализируемый пример. Это значение называется и обозначается синтаксисом.

Целью обучения с учителем является прогнозирование входных данных на основе признаков, присутствующих в данных, а затем классификация самих данных. Рисунок 1 показывает, как работает функция, на рисунке мы видим помеченные данные, Собака и различный вес, например, 18 фунтов или 14 фунтов. Функция — это, по сути, характеристика, связанная с данными, функция важна, когда мы хотим классифицировать.

Классификация против регрессии

Когда мы говорим о контролируемом обучении, идея обычно состоит в том, чтобы решить два основных типа проблем:

Задача классификации – это задача, в которой машинное обучение пытается классифицировать данные на основе предыдущего наблюдения.

Типичным примером является спам-фильтр, фильтр изучает общие правила классификации почты как спама или нет, этот тип классификации называется бинарной классификацией.

Другой тип классификации называется мультиклассовая классификация. Этот тип классификации можно использовать, например, для распознавания разных видов животных, мы подаем алгоритму разные изображения, и алгоритм классифицирует животное на невидимых данных.

Суть классификации заключается в назначении метки категориинеупорядоченным и невидимым данным.

Есть еще одна важная задача, связанная с контролируемым обучением, она называется регрессия.

Регрессионный анализ используется для прогнозирования непрерывной переменной результата на основе прогноза. Если говорить более формально, регрессионный анализ предназначен для поиска корреляции между некоторой независимой переменной и одной зависимой переменной. Классическим примером регрессионного анализа является прогнозирование цены дома на основе, например, площади в квадратных футах или местоположения.

Алгоритм контролируемого обучения

Теперь у нас есть представление об обучении с учителем и о том, какие проблемы мы можем решить с помощью этого метода. Чтобы лучше понять, как его использовать, давайте рассмотрим основной алгоритм, используемый при обучении с учителем.

K-ближайший сосед

KNN или K-ближайший сосед — это простой алгоритм, используемый для классификации данных на основе сходства данных. В алгоритме 'k' используется для определения значения соседа рядом с точкой данных, это используется для анализа значения рядом с точкой данных и последующей классификации данных, новые данные классифицируются по большинство голосов соседа, количество используемых соседей идентифицируется значением k.

Наивный Байес

Наивный байесовский классификатор — это вероятностный алгоритм, основанный на теореме Байеса и используемый для решения задачи классификации. Этот тип алгоритма по сути является вероятностным классификатором, это означает, что классификация выполняется с использованием вероятности события с использованием теоремы Байеса:

Где:

P(A|B) — апостериорная вероятность, вероятность гипотезы A относительно наблюдаемого события B.
P(B|A) – вероятность правдоподобия, вероятность того, что гипотеза верна.
P(A) – это априорная вероятность, вероятность гипотезы до наблюдения доказательств.
P(B) — предельная вероятность, вероятность доказательства

Наивный Байес используется для классификации спама или текста.

Деревья решений

Деревья решений используются как в задаче контролируемого обучения, так и в классификации и регрессии, по этой причине их иногда называют деревьями классификации и регрессии (CART).

В деревьях решений предсказание ответа делается непосредственно путем изучения функции, полученной из самих функций.

При анализе решений дерево решений можно использовать для визуализации данных и явного представления решений и их принятия.

Линейная регрессия

Линейная регрессия — это один из самых основных алгоритмов машинного обучения. С помощью алгоритма линейной регрессии модель пытается найти наилучшую линейную зависимость между зависимыми и независимыми переменными.

Линейную регрессию можно разделить на два основных типа:

Простая линейная регрессия, где у нас есть только одна независимая переменная
Множественная линейная регрессия, где у нас есть более одной независимой переменной

В обоих случаях модель пытается найти корреляцию между независимой переменной и зависимой.

Метод опорных векторов (SVM)

Метод опорных векторов — еще один алгоритм, который можно использовать как в классификации, так и в регрессии.

Алгоритм SVM отображает каждый элемент данных как точку в n-мерном пространстве, где n — количество объектов, которые есть в модели, каждая точка представляет собой координату в космос.

После определения координат мы используем классификацию, чтобы найти гиперплоскость, используемую для дифференциации данных.

Заключение

В этой статье мы представляем алгоритм обучения с учителем, это первый алгоритм, используемый в искусственном интеллекте и машинном обучении.

В следующих статьях мы начнем рассматривать, как реализовать некоторые из представленных алгоритмов, и увидим, как этот алгоритм можно использовать для построения нашей модели машинного обучения.

Если вам интересно углубиться в алгоритм, я могу предложить несколько замечательных книг:

Интеллектуальный анализ данных: практические инструменты и методы машинного обучения, эта книга является обязательной для изучения всех методов, связанных с интеллектуальным анализом данных.
Машинное обучение с PyTorch и Scikit-Learn: разработка моделей машинного обучения и глубокого обучения с помощью Python, эта книга необходима для объединения теории и практики в области машинного обучения.

Если вам понравилась статья, не стесняйтесь добавлять комментарии и задавать любые вопросы.

Первоначально опубликовано на http://thoughtsonprogramming.com 20 марта 2022 г.

Предложения по подаче заявок на Mlearning.ai
Как стать писателем на Mlearning.aimedium.com