Когда данные — проклятие для обучения

Данные и обучение похожи на лучших друзей, возможно, обучение слишком зависит от данных, чтобы их можно было назвать друзьями. Когда данных слишком много, обучение обходится дорого, поэтому это больше похоже на отношения между девушкой и парнем. Что ж, не запутайтесь и не беспокойтесь о том, как я сравниваю данные и обучение, это просто мое описание того, что называется уменьшением размерности в машинном обучении. Если серьезно, в этом блоге мы рассмотрим, что такое «проклятие размерности», выбор функций, как они работают, различные темы, и, в конце концов, вам может понравиться мое описание, и вы тоже сделаете его своим.

Что ж, обучение имеет полное право действовать дорого, в конце концов, качество побеждает количество. Наличие большого количества измерений не означает, что все они особенно полезны. Фактически, это становится проклятием, и «Проклятие размерности» — это название в науке о данных, определяющее эту проблему. Это относится к явлению, возникающему при анализе и организации данных в многомерном пространстве. Такого рода проблемы обычно не возникают в низкоразмерном пространстве, таком как трехмерное физическое пространство. Слишком много функций/размеров также делают модель слишком подходящей, чего во всех алгоритмах классификации, таких как KNN, дерево решений, нейронная сеть, мы хотим избежать. Хотя большее количество признаков или измерений является проблемой переоснащения, меньшее количество признаков или измерений также вызовет то же самое.

Таким образом, решение заключается в уменьшении размерности. Двумя хорошо известными методами уменьшения размерности являются Выбор функций и Извлечение функций. Я считаю, что уменьшение размерности, похожее на игру девушки, дорого стоит, и вышеупомянутые методы фактически заставляют парня учиться контролировать ситуацию. Итак, хватит с этим изображением, и давайте теперь сосредоточимся на двух методах.

Выбор функций. В однострочном режиме выбор функций – это процесс выбора подмножества данных путем исключения из него избыточных или нерелевантных функций. Возьмем, к примеру, наши данные {X1, X2, X3, …… Xn}, а возможное подмножество этих данных равно 2 ^ n, в основном количество подмножеств растет экспоненциально с количеством функций. Теперь, как вы можете видеть, хотя нам нужно выбрать подмножество, мы не можем просмотреть всех и каждого.

Нам нужны некоторые методы для выбора подмножеств, которые работают за минимальное время. Они могут быть

Оптимальный метод
Эвристический метод
Рандомизированный метод

"Продолжить чтение …."

Когда данные — проклятие для обучения

Похожие вопросы