У меня есть набор данных о баскетбольной команде с пятью столбцами, каждый из которых имеет один и тот же фактор, например:
head(dat)
V1 V2 V3 V4 V5
1 MILES,KEATON KINGSLEY,MOSES BELL,ANTHLON HANNAHS,DUSTY DURHAM,JABRIL
2 MILES,KEATON KINGSLEY,MOSES BELL,ANTHLON HANNAHS,DUSTY DURHAM,JABRIL
3 KINGSLEY,MOSES BELL,ANTHLON HANNAHS,DUSTY DURHAM,JABRIL THOMPSON,TREY
4 KINGSLEY,MOSES BELL,ANTHLON HANNAHS,DUSTY THOMPSON,TREY BEARD,ANTON
5 THOMPSON,TREY BEARD,ANTON KOUASSI,WILLY WHITT,JIMMY WATKINS,MANUALE
6 THOMPSON,TREY BEARD,ANTON KOUASSI,WILLY WHITT,JIMMY WATKINS,MANUALE
Я хочу, чтобы каждая строка была фиктивной кодировкой текущих факторов, показанных в строке, например:
MILES,KEATON KINGSLEY,MOSES BELL,ANTHLON HANNAHS,DUSTY DURHAM,JABRIL THOMPSON,TREY BEARD,ANTON KOUASSI,WILLY WHITT,JIMMY WATKINS,MANUALE
1 1 1 1 1 0 0 0 0 0
1 1 1 1 1 0 0 0 0 0
0 1 1 1 1 1 0 0 0 0
Тем не менее, model.matrix, похоже, имеет область действия только в один столбец; это не позволит мне разделить весь набор факторов на несколько столбцов. Следуя некоторым советам в [этой теме][1], я попробовал:
df <- as.data.frame(lapply(dat,as.factor))
fList <- lapply(names(df),reformulate,intercept=FALSE)
mList <- lapply(fList,sparse.model.matrix,data=df)
br <- do.call(cBind,mList)
head(br)
6 x 31 sparse Matrix of class "dgCMatrix"
[[ suppressing 31 column names ‘V1BEARD,ANTON’, ‘V1BELL,ANTHLON’, ‘V1KINGSLEY,MOSES’ ... ]]
1 . . . 1 . . . . 1 . . 1 . . . . . . 1 . . . . . . 1 . . . . .
2 . . . 1 . . . . 1 . . 1 . . . . . . 1 . . . . . . 1 . . . . .
3 . . 1 . . . 1 . . . . . . 1 . . . 1 . . . . . . . . . . . 1 .
4 . . 1 . . . 1 . . . . . . 1 . . . . . . . 1 . . 1 . . . . . .
5 . . . . 1 1 . . . . . . . . 1 . . . . . . . . 1 . . . . . . 1
6 . . . . 1 1 . . . . . . . . 1 . . . . . . . . 1 . . . . . . 1
Он объединяет имя столбца и имя фактора. Что я делаю?