Что является лучшим входом для автоэнкодера, с коррелированными функциями или с некоррелированными функциями?

Я пытаюсь визуализировать свои данные в 2D, чтобы обнаружить мошенничество (выбросы), все мои функции, вероятно, примут большие значения в случае мошенничества. Но я был осторожен, чтобы не включать лишние функции,

например, функции: «Активность» (оценка, которая выше для активных пользователей, которые используют службу каждый день) и «Заработанные деньги», как правило, имеют более высокие значения в случае мошенничества, но одно нельзя вывести из другого.

Я полагал, что выбор функций таким образом приведет к увеличению координат в 2D-представлении и сделает мошеннические точки отдаленными/выделенными от остальных моих данных.

Я также чувствую, что наличие коррелированных функций облегчило бы автоэнкодеру восстановление данных. Но я много раз читал, что коррелированные функции неэффективны в машинном обучении.

Должен ли я приложить усилия, чтобы сделать мои черты менее коррелированными? Например, заменить показатель активности (более высокий для активных пользователей) временем между двумя использованиями (ниже для активных пользователей)?

А может для автоэнкодера это не важно?

autoencoder correlation feature-selection

ml-enthusiast 26.07.2017 источник

Ответы (1)

arrow_upward
0
arrow_downward

Вы правы в своем понимании того, что «наличие коррелированных функций облегчит автоэнкодеру восстановление данных».

Например, если все ваши точки данных являются i.i.d. Gauss, это сделало бы сжатие данных очень трудным для автокодировщиков, поскольку они не смогли бы изучить низкоразмерное представление данных.

Подробнее см. в этом учебном пособии Stanford UFLDL по ссылка.

Shadab Azeem 18.04.2019

comment

Пожалуйста, сделайте свой ответ полезным даже без ссылки - Robson; 18.04.2019

Что является лучшим входом для автоэнкодера, с коррелированными функциями или с некоррелированными функциями?

Ответы (1)

Похожие вопросы