Я пытаюсь визуализировать свои данные в 2D, чтобы обнаружить мошенничество (выбросы), все мои функции, вероятно, примут большие значения в случае мошенничества. Но я был осторожен, чтобы не включать лишние функции,
например, функции: «Активность» (оценка, которая выше для активных пользователей, которые используют службу каждый день) и «Заработанные деньги», как правило, имеют более высокие значения в случае мошенничества, но одно нельзя вывести из другого.
Я полагал, что выбор функций таким образом приведет к увеличению координат в 2D-представлении и сделает мошеннические точки отдаленными/выделенными от остальных моих данных.
Я также чувствую, что наличие коррелированных функций облегчило бы автоэнкодеру восстановление данных. Но я много раз читал, что коррелированные функции неэффективны в машинном обучении.
Должен ли я приложить усилия, чтобы сделать мои черты менее коррелированными? Например, заменить показатель активности (более высокий для активных пользователей) временем между двумя использованиями (ниже для активных пользователей)?
А может для автоэнкодера это не важно?