Основная цель алгоритмов машинного обучения - обнаружение закономерностей в данных. В зависимости от типа вопросов, с которыми столкнулись исследователи, и имеющихся данных мы выберем алгоритмы обучения. Их можно разделить на два класса в зависимости от того, как они узнают о данных. Это контролируемое и неконтролируемое обучение.

Когда у нас есть априорная информация о реальной ценности результатов, мы можем создать алгоритм, используя основную истину. Предположим, у нас есть входные переменные (x) и выходная переменная (Y), и мы используем алгоритм обучения для аппроксимации функции отображения от входа к выходу:

Y = f(X).

Цель состоит в том, чтобы найти функцию f настолько хорошо, чтобы мы могли предсказать выходную переменную (Y), когда у нас есть новые, а не обучающие входные данные (x). Мы знаем правильные ответы, и алгоритм итеративно исправляет прогнозы на обучающих данных. Он работает как учитель, который исправляет ошибки, и действует как супервизор, оценивая, правильно ли вы получаете ответ. Поэтому этот тип алгоритма называется контролируемым обучением, что означает наличие полного набора помеченных данных в процессе обучения. Полное обозначение дает возможность измерить точность предсказания, называемую производительностью алгоритма. Обучение прекращается, когда алгоритм достигает приемлемого уровня производительности.

Основное различие между двумя типами алгоритмов заключается в том, что во время обучения используются или не используются достоверные данные или предварительные знания. Не всегда легко иметь идеально размеченные и чистые наборы данных, а иногда и невозможно. Вот почему нужны вопросы алгоритма, на которые они не знают ответа. Это путь к обучению без учителя. У него нет помеченных результатов, поэтому модель обучения использует набор данных без каких-либо инструкций о том, что с ним делать. Отсутствие соответствующих выходных переменных определяет цель понимания естественной структуры точек данных. Обучение без учителя - это моделирование распределения данных, чтобы узнать больше о взаимосвязи входных данных.

Проблемы классификации и регрессии - две основные области, в которых полезно обучение с учителем. Общие алгоритмы включают логистическую регрессию, наивный байесовский алгоритм, вспомогательные векторные машины, искусственные нейронные сети и случайные леса. Цель алгоритмов классификации - предсказать категориальное или дискретное значение, идентифицируя входные данные как член определенного класса или группы. С другой стороны, основная цель алгоритмов регрессии - предсказать дискретное или продолжающееся значение, которое не относится ни к какому классу или категории. И для классификации, и для регрессии цель состоит в том, чтобы найти конкретную функцию входных данных, которая позволяет эффективно производить правильные выходные данные. Правильность предполагается с точки зрения обучающих данных. Нельзя сказать, что результаты всегда правильные. Неправильные или зашумленные метки данных являются источником некорректности, снижающей эффективность обучения. Сложность модели - еще один фактор, влияющий на производительность алгоритма. Правильный уровень сложности зависит от характера обучающих данных. Небольшой объем данных или неравномерное распределение по различным возможным сценариям требуют модели низкой сложности. В этих условиях высокая сложность, как правило, переоценивается. Это означает, что изучение функции хорошо согласуется с данными обучения, но не распространяется на другие точки данных.

Обучение без учителя относится к таким наиболее распространенным задачам, как кластеризация, обнаружение аномалий, изучение представлений и оценка плотности. Во всех этих случаях желаемой целью является неявная структура данных. Наиболее распространенные алгоритмы включают кластеризацию k-средних, анализ главных компонентов и автоэнкодеры. Поскольку используются немаркированные данные, нет конкретного способа сравнить производительность модели в большинстве методов обучения без учителя. Наиболее широко используемым алгоритмом обучения без учителя является кластеризация. Он делит точки данных на несколько групп и может дать пищу для размышлений, чтобы создать предположение о ярлыках при классификации. Обнаружение аномалий - это метод обнаружения редких событий в данных. Его также можно использовать в разработке функций для фильтрации ошибочных наблюдений. Репрезентативное обучение может находить ассоциации признаков, рассматриваемые как связанные. Он используется в разработке функций для уменьшения размерности данных и упрощения процедур подсчета в контролируемых методах. Автоэнкодеры принимают входные данные, сжимают их в код с возможностью воссоздания входных данных и могут удалять шум из данных.

Как правило, выбор между контролируемыми или неконтролируемыми алгоритмами машинного обучения зависит от факторов, определяемых объемом и структурой данных. В действительности для решения варианта использования используются как контролируемые, так и неконтролируемые алгоритмы.