Почему обучение с учителем по-прежнему часто превосходит обучение без учителя?

Машинное обучение делится на две большие категории: обучение с учителем и обучение без учителя. Даже после многих недавних успехов неконтролируемого ИИ, контролируемый ИИ, управляемый моделями, по-прежнему очень актуален.

В то время как контролируемое обучение начинается с заданной вручную модели желаемых результатов, неконтролируемое обучение начинается с данных, делая собственные выводы о структуре, которую оно находит в этих данных.

Хотя в последние годы мы стали свидетелями ряда поразительных успехов в обучении без учителя, особенно в задачах кластеризации и репрезентации, обучение без учителя по-прежнему страдает от проблем, в первую очередь печально известного черного ящика - отсутствия внешнего понимания того, как и почему неконтролируемая система позволяет конкретные выводы он делает. Теперь, когда действует Общий регламент ЕС по защите данных (GDPR), организации вынуждены внедрять объяснимый и надежный ИИ.

Здесь мы более подробно рассмотрим взаимодействие между контролируемым и неконтролируемым обучением, исследуя преимущества и недостатки каждого из них.

Что такого хорошего в обучении без учителя?

Недавние успехи в обучении без учителя

Поскольку затраты на облачные вычисления продолжают снижаться, инновации в автоматизированной подготовке данных упростили многие традиционно трудоемкие аспекты анализа данных, включая маркировку, сортировку и классификацию.

Например, в отчете Gartner за 2016 год установлено, что низкое качество данных может обходиться организации в 13,5 миллионов долларов в год; и согласно опросу специалистов по обработке данных CrowdFlower, полные 76 процентов считают подготовку данных наиболее трудоемким аспектом своей работы. Таким образом, более разумная обработка данных означает более простой, быстрый и дешевый неконтролируемый анализ.

Шерлок распознавания образов

Обучение без учителя уже продемонстрировало свою точность в выявлении тонких структур в наборах данных, в которых людям трудно разглядеть закономерности. При работе с наборами данных, включающими множество функций, таких как визуальные изображения и видео, неконтролируемые алгоритмы могут быстро классифицировать и кластеризовать данные, используя гораздо меньше функций, чем может указать человек, что делает обработку данных еще более быстрой и эффективной.

Нет переобучения для этого большого парня

Более того, неконтролируемое машинное обучение позволяет обойти несколько хорошо известных недостатков алгоритмов контролируемого обучения (управляемых моделями), в том числе компромисс смещения и дисперсии, при котором низкая дисперсия входных данных, предоставленных в наборе обучающих данных, может привести к более высокому уровню ошибок во время фаза вывода, потому что модель не была должным образом обучена распознавать редкие и неожиданные особенности.

Но при всех этих преимуществах у машинного обучения без учителя есть свои недостатки.

Ключевые недостатки обучения без учителя

Отсутствие подотчетности в искусственном интеллекте

На базовом уровне проектирования большинство алгоритмов машинного обучения довольно легко охарактеризовать. Например, простой алгоритм, который производит вывод Z как функцию ввода Y и вычисление X, может быть выражен как «Z = XY».

Но хотя Z и X могут быть простыми переменными, проблемы начинают возникать, когда X не является простым набором вычислений «если-то», а представляет собой детализированную архитектуру глубокого обучения, состоящую из миллионов постоянно меняющихся взаимосвязей.

В такой архитектуре глубокого обучения точный метод анализа данных алгоритма становится слишком сложным, чтобы его можно было охарактеризовать с какой-либо точностью.

Отчасти это связано с тем, что сам метод анализа алгоритма развивается независимо по мере обучения алгоритма.

Другими словами, чем более детальным становится анализ алгоритма, тем сложнее описать, как происходит этот анализ - точно так же, как вам легко описать, как вы решаете арифметическую задачу, но почти невозможно объяснить, как вы ощущаете красоту. картины.

Это основная проблема объяснимого ИИ - серьезная проблема в современной среде машинного обучения. И это гораздо больше, чем просто технический вызов. Начиная с 2018 года GDPR требует, чтобы организации обеспечивали справедливую и прозрачную обработку данных о потребителях, включая использование подходящих и объяснимых моделей машинного обучения для анализа этих данных. Системы черного ящика больше не подходят.

Озера данных больше похожи на болота данных

Для обучения без учителя требуются гораздо большие наборы данных, чем для обучения с учителем, а это не всегда возможно для команд, работающих с ограниченными данными. Хотя хорошо известно, что большие наборы данных приводят к более точному анализу, процессы сбора и очистки этих данных часто являются дорогостоящими и требуют много времени, в то время как озера данных - носители данных, на которых хранятся данные во время анализа - могут быть больше похожи на неорганизованные и дорогие. « Информационные болота .

По мере того, как хранение данных становится более доступным, а подходы к маркировке данных становятся более стандартизированными, существующие озера данных могут перестать сидеть без дела, как заплесневелые пруды, и начать использоваться для полноценного машинного анализа.

Классификация, категоризация, решение проблем: контролируемые алгоритмы по-прежнему являются королями своего дела

Каким бы парадоксальным это ни казалось, контролируемые алгоритмы (особенно логистическая регрессия и случайный лес) имеют тенденцию превосходить неконтролируемые в задачах дискретной классификации и категоризации, где данные относительно структурированы и хорошо помечены.

Более того, было показано, что обучение без учителя работает плохо, когда используется для решения задач, планирования и принятия решений. Эти недостатки делают обучение без учителя неадекватным для критически важных приложений, таких как беспилотные автомобили и компьютерное зрение, где стоимость даже небольших ошибок может быть чрезвычайно высокой и даже фатальной для человека.

Обучение без учителя и обучение с учителем объединены

Таким образом, даже после многих недавних успехов неконтролируемого ИИ, управляемого данными, контролируемый ИИ, управляемый моделями, по-прежнему очень актуален. Однако для современных исследователей основная задача состоит не в том, чтобы разработать модели контролируемого обучения, которые заменяли бы их неконтролируемые аналоги, а в том, чтобы развивать эти два аспекта ИИ в тандеме.

Когда преимущества контролируемого и неконтролируемого ИИ используются для поддержки друг друга, мы можем начать открывать черный ящик и создавать объяснимый ИИ в соответствии с нормативными требованиями для приложений следующего поколения в мире, где ИИ будет вездесущ во всех сферах. нашей жизни.

Чтобы узнать больше о ingedata.net, напишите нам на [email protected].

Первоначально опубликовано на www.ingedata.net.