Переименование терминов в матрице терминологического документа

Я только что создал матрицу терминологического документа в R, но теперь я хочу переименовать некоторые термины.

Например здесь

vector <- "This is a test."

library(tm)

doc.vec <- VectorSource(vector)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)

Проверьте матрицу TDM, она будет выводиться в

    Docs
    Terms   1
    test. 1
    this  1

Теперь я хочу переименовать, например, "test". к "чему угодно". Причина в том, что когда я разрабатываю свой текст, есть такие слова, как «большие данные», которые, очевидно, принадлежат друг другу. Итак, на первом этапе я использую gsub, чтобы заменить «большие данные» на «большие данные». Однако, в конце концов, я хочу, чтобы на выходе были «большие данные».

Заранее спасибо за помощь.


person Dat Tran    schedule 22.08.2014    source источник


Ответы (1)


Вот один из подходов, не отвечающий на ваш первый вопрос, а отвечающий вашим потребностям:

vector <- "This is a test.  I use big data.  That's George Washington!"

library(tm)
library(qdap)

vector2 <- space_fill(vector, c("big data", "George Washington"))

doc.vec <- VectorSource(vector2)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)
rownames(TDM) <- gsub("~~", " ", rownames(TDM))
inspect(TDM)

                    Docs
Terms                1
  big data.          1
  george washington! 1
  test.              1
  that's             1
  this               1
  use                1
person Tyler Rinker    schedule 22.08.2014