У меня есть набор данных с несколькими сотнями столбцов. Он содержит данные списка рассылки, и несколько столбцов кажутся точными копиями друг друга, но в другой форме.
Например:
rowNum StateCode StateName StateAbbreviation
1 01 UTAH UT
2 01 UTAH UT
3 03 TEXAS TX
4 03 TEXAS TX
5 03 TEXAS TX
6 44 OHIO OH
7 44 OHIO OH
8 44 OHIO OH
... ... ... ...
Я хотел бы удалить перекрывающиеся данные и просто сохранить числовые столбцы, если это возможно, чтобы только один столбец содержал одинаковую информацию. Таким образом, приведенный выше пример станет следующим:
rowNum StateCode
1 01
2 01
3 03
4 03
5 03
6 44
7 44
8 44
... ...
Я пытался использовать cor()
, но это работает только для числовых переменных. Я пробовал caret::nearZeroVar()
, но это работает только в самой колонке.
Есть ли у кого-нибудь предложения по поиску идеально коррелированных столбцов с нечисловыми данными?
Спасибо.
cor()
, который я, конечно, должен был взять из вашего вопроса для начала. Спасибо за классный вопрос. - person Josh O'Brien   schedule 05.09.2012