Я создал матрицу терминов документа из своего Корпуса, используя пакет tm
.
dtm <- DocumentTermMatrix(myCorpus, control=list(wordLengths=c(4, 20),
bounds = list(global = c(1,13))))
Затем я создал матрицу смежности терминов.
ttm_results <- t(as.matrix(dtm)) %*% as.matrix(dtm)
Когда я проверяю образец своих результатов
ttm_results[200:205, 200:205]
Я заметил, что это очень большой, но разреженный набор данных.
Как я могу удалить строки со значением essentially zeros
?
Я считаю, что essentially zero
включает такие строки, как 1,2 и 5, в которых нет терминов adjacent
.