Что является лучшим входом для автоэнкодера, с коррелированными функциями или с некоррелированными функциями?

Я пытаюсь визуализировать свои данные в 2D, чтобы обнаружить мошенничество (выбросы), все мои функции, вероятно, примут большие значения в случае мошенничества. Но я был осторожен, чтобы не включать лишние функции,

например, функции: «Активность» (оценка, которая выше для активных пользователей, которые используют службу каждый день) и «Заработанные деньги», как правило, имеют более высокие значения в случае мошенничества, но одно нельзя вывести из другого.

Я полагал, что выбор функций таким образом приведет к увеличению координат в 2D-представлении и сделает мошеннические точки отдаленными/выделенными от остальных моих данных.

Я также чувствую, что наличие коррелированных функций облегчило бы автоэнкодеру восстановление данных. Но я много раз читал, что коррелированные функции неэффективны в машинном обучении.

Должен ли я приложить усилия, чтобы сделать мои черты менее коррелированными? Например, заменить показатель активности (более высокий для активных пользователей) временем между двумя использованиями (ниже для активных пользователей)?

А может для автоэнкодера это не важно?


person ml-enthusiast    schedule 26.07.2017    source источник


Ответы (1)


Вы правы в своем понимании того, что «наличие коррелированных функций облегчит автоэнкодеру восстановление данных».

Например, если все ваши точки данных являются i.i.d. Gauss, это сделало бы сжатие данных очень трудным для автокодировщиков, поскольку они не смогли бы изучить низкоразмерное представление данных.

Подробнее см. в этом учебном пособии Stanford UFLDL по ссылка.

person Shadab Azeem    schedule 18.04.2019
comment
Пожалуйста, сделайте свой ответ полезным даже без ссылки - person Robson; 18.04.2019