Являются ли SVM лучше, чем ANN со многими классами? Вы, вероятно, имеете в виду тот факт, что SVM по сути являются одноклассовыми или двухклассовыми классификаторами. На самом деле они есть, и нет никакого способа модифицировать алгоритм SVM для классификации более двух классов.
Фундаментальной особенностью SVM является разделяющая гиперплоскость с максимальным запасом, положение которой определяется максимальным расстоянием от опорных векторов. И все же SVM обычно используются для многоклассовой классификации, которая выполняется с помощью обработки-оболочки вокруг нескольких классификаторов SVM, которые работают по шаблону «один против многих», т. е. обучающие данные показываются первой SVM, которая классифицирует эти экземпляры. как "Класс I" или "не Класс I". Затем данные второго класса отображаются для второй SVM, которая классифицирует эти данные как "Класс II" или "не Класс II" и так далее. На практике это работает достаточно хорошо. Как и следовало ожидать, более высокое разрешение SVM по сравнению с другими классификаторами не ограничивается данными двух классов.
Насколько я могу судить, исследования, опубликованные в литературе, подтверждают это, например, в статье с провокационным названием Пол с помощью машин опорных векторов для SVM было сообщено о значительно лучшем разрешении для идентификации пола (мужской/женский) в изображениях размером 12 квадратных пикселей по сравнению с группа традиционных линейных классификаторов; SVM также превзошел RBF NN, а также большой ансамбль RBF NN). Но, по-видимому, существует множество подобных доказательств превосходной производительности SVM в задачах с несколькими классами: например, SVM превзошел NN в распознавание белковых складок и в прогнозирование временных рядов.
У меня сложилось впечатление, что я читал эту литературу за последнее десятилетие или около того, что большинство тщательно спланированных исследований, проводимых людьми, умеющими настраивать и использовать обе техники, и использующими данные, достаточно устойчивые к классификации, чтобы спровоцировать какую-то значимую разницу в разрешении: сообщают о превосходной производительности SVM по сравнению с NN. Но, как предполагает ваш вопрос, эта дельта производительности, по-видимому, в определенной степени зависит от предметной области.
Например, NN превзошел SVM в сравнительном исследовании идентификация автора по текстам, написанным арабским шрифтом; В исследовании, сравнивающем кредитный рейтинг предсказание, не было заметной разницы в разрешении двух классификаторов; аналогичный результат был получен в исследовании классификация высокоэнергетических частиц.
Я читал из более чем одного источника в академической литературе, что SVM превосходит NN как размер обучающих данных уменьшается.
Наконец, степень, в которой можно обобщать результаты этих сравнительных исследований, вероятно, весьма ограничена. Например, в одном исследовании, сравнивающем точность SVM и NN в прогнозировании временных рядов, исследователи сообщили что SVM действительно превзошла обычную (с обратным распространением по многоуровневым узлам) NN, но производительность SVM была примерно такой же, как у RBF (радиальной базисной функции) NN.
[Являются ли SVM лучше, чем ANN] в онлайн-настройках? SVM не используются в онлайн-настройках (т. е. при дополнительном обучении). Суть SVM заключается в разделяющей гиперплоскости, положение которой определяется небольшим количеством опорных векторов. Таким образом, даже одна дополнительная точка данных может в принципе существенно повлиять на положение этой гиперплоскости.
А как насчет частично контролируемого случая, такого как обучение с подкреплением? До комментария OP к этому ответу я не знал ни о нейронных сетях, ни о SVM, используемых таким образом - но они.
Наиболее широко используемый полуконтролируемый вариант SVM называется Transductive SVM (TSVM), впервые упомянутым Владимиром Вапником (тот же парень, который открыл/изобрел обычный SVM). Я почти ничего не знаю об этой технике, кроме того, как она называется и что она следует принципам преобразования (примерно латеральное рассуждение — т. е. рассуждение от обучающих данных к тестовым данным). Очевидно, TSV является предпочтительным методом в области текста. классификация.
Есть ли лучшая неконтролируемая версия SVM? Я не думаю, что SVM подходят для обучения без учителя. Разделение основано на положении гиперплоскости с максимальным запасом, определяемом опорными векторами. Это может легко быть моим собственным ограниченным пониманием, но я не понимаю, как это могло бы произойти, если бы эти опорные векторы не были помечены (т. Е. Если бы вы не знали заранее, что вы пытаетесь разделить). Одним из важнейших случаев использования неконтролируемых алгоритмов является случай, когда у вас нет помеченных данных или они есть, и они сильно несбалансированы. Например, онлайн-мошенничество; здесь вы можете иметь в своих обучающих данных только несколько точек данных, помеченных как «мошеннические учетные записи» (и обычно с сомнительной точностью), по сравнению с остальными> 99%, помеченными как «не мошеннические». В этом сценарии классификатор с одним классом, типичная конфигурация для SVM, является хорошим вариантом. В частности, обучающие данные состоят из экземпляров, помеченных как «не мошеннические» и «неподходящие» (или какой-либо другой ярлык, указывающий, что они не принадлежат к классу) — другими словами, «внутри границы решения» и «вне границы решения». ."
В заключение я хотел бы упомянуть, что через 20 лет после их «открытия» SVM прочно укоренился в библиотеке машинного обучения. И действительно, неизменно высокое разрешение по сравнению с другими современными классификаторами хорошо задокументировано.
Их родословная является результатом их превосходных характеристик, подтвержденных многочисленными строго контролируемыми исследованиями, а также их концептуальной элегантности. Что касается последнего пункта, учтите, что многослойные персептроны (MLP), хотя они часто являются отличными классификаторами, управляются процедурой численной оптимизации, которая на практике редко находит глобальный минимум; более того, это решение не имеет концептуального значения. С другой стороны, численная оптимизация, лежащая в основе построения классификатора SVM, на самом деле находит глобальный минимум. Более того, это решение является фактической границей решения.
Тем не менее, я думаю, что репутация SVM немного снизилась за последние несколько лет.
Я подозреваю, что основная причина — конкуренция NetFlix. NetFlix подчеркнул разрешающую способность фундаментальных методов матричной декомпозиции и, что еще более важно, силу объединения классификаторов. Люди объединяли классификаторы задолго до NetFlix, но скорее как случайный метод, чем как атрибут дизайна классификатора. Более того, многие методы комбинирования классификаторов необычайно просты для понимания и реализации. Напротив, SVM не только очень сложно закодировать (на мой взгляд, это самый сложный алгоритм машинного обучения для реализации в коде), но также трудно настроить и реализовать в виде предварительно скомпилированной библиотеки — например, необходимо выбрать ядро. , результаты очень чувствительны к тому, как масштабируются/нормализуются данные и т. д.
person
doug
schedule
14.07.2011