Построение матрицы терминологического документа

У меня есть CSV-файл, заголовок которого: DATE Alert и OriginatingAddress.
Как мне построить матрицу термодокумента на основе двух столбцов: DATE и Alert.
В строке будет предупреждение, а в столбце - день. Запись указывает количество появлений предупреждения за день.

Я пробовал:

library(tm)
myCorpus <- read.csv("alert-sample-data-4-mining.csv")
corpus <- Corpus(VectorSource(myCorpus$DATE, myCorpus$Alert))
TermDocumentMatrix(corpus)

Но результат не тот, что я хочу.

Текущий результат, который я получил:

++++++++++++++++++++++++++++
Матрица термин-документ (31 термин, 69124 документа)

Не- / редкие записи: 69124/2073720
Редкость: 97%
Максимальная длина термина: 9
Вес: частота термина (tf)
+++++++++++++ ++++++++++++++++++++++++++++++++

str (myCorpus)
'data.frame': 69124 набл. из 3 переменных:
$ DATEFORMAT: Фактор с 31 уровнем «3/01/2013», «3/02/2013», ..: 21 21 21 21 21 21 21 21 21 21 ...
$ Alert: Фактор с 88 уровнями "% BGP-5-ADJCHANGE", ..: 49 49 49 49 49 49 49 49 49 49 ...
$ OriginatingAddress: Фактор с 98 уровнями "10.112.36.12", ..: 67 67 67 67 67 67 67 67 67 67 ...


r tm
person Jusleong    schedule 13.12.2013    source источник
comment
и что вы ожидаете увидеть?   -  person Alex Popov    schedule 13.12.2013
comment
@aseidlitz Я ожидаю увидеть: в строке будет предупреждение, а в столбце - день. В этом случае: матрица термин-документ должна быть (88 терминов, 31 документ), я прав?   -  person Jusleong    schedule 13.12.2013


Ответы (1)


Я думаю, вы на самом деле просите двухстороннюю таблицу частот, а не матрицу терминов:

myCorpus <- read.csv("alert-sample-data-4-mining.csv")
table(myCorpus$Alert, myCorpus$DATEFORMAT)
person josliber♦    schedule 13.12.2013
comment
спасибо josilber! Но мне все еще нужно получить результат не- / разреженных записей, разреженности, как мне это сделать? - person Jusleong; 13.12.2013
comment
Что ж, если это действительно 88 x 31, разреженное представление не будет иметь большого значения. - person josliber♦; 13.12.2013