У меня есть CSV-файл, заголовок которого: DATE Alert и OriginatingAddress.
Как мне построить матрицу термодокумента на основе двух столбцов: DATE и Alert.
В строке будет предупреждение, а в столбце - день. Запись указывает количество появлений предупреждения за день.
Я пробовал:
library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert))
TermDocumentMatrix(corpus)
Но результат не тот, что я хочу.
Текущий результат, который я получил:
++++++++++++++++++++++++++++
Матрица термин-документ (31 термин, 69124 документа)
Не- / редкие записи: 69124/2073720
Редкость: 97%
Максимальная длина термина: 9
Вес: частота термина (tf)
+++++++++++++ ++++++++++++++++++++++++++++++++
str (myCorpus)
'data.frame': 69124 набл. из 3 переменных:
$ DATEFORMAT: Фактор с 31 уровнем «3/01/2013», «3/02/2013», ..: 21 21 21 21 21 21 21 21 21 21 ...
$ Alert: Фактор с 88 уровнями "% BGP-5-ADJCHANGE", ..: 49 49 49 49 49 49 49 49 49 49 ...
$ OriginatingAddress: Фактор с 98 уровнями "10.112.36.12", ..: 67 67 67 67 67 67 67 67 67 67 ...