Я пытаюсь создать дендрограмму в r на основе листа Excel для использования в анализе текста. У меня есть один большой столбец, каждая ячейка со строкой текста. Я хочу, чтобы наименьшая ветвь дендрограммы представляла отдельную ячейку, но когда я запускаю свой скрипт, я вместо этого получаю дендрограмму каждого слова во всем файле Excel. Как я могу это исправить?
library(tm)
library(stringi)
library(proxy)
Data <- read.csv(file.choose(),header=TRUE)
docs <- Corpus(VectorSource(Data))
docs[[1]]
docs1 <- tm_map(docs, PlainTextDocument)
docs2 <- tm_map(docs1, stripWhitespace)
docs3 <- tm_map(docs2, removeWords, stopwords("english"))
docs4 <- tm_map(docs3, removePunctuation)
docs5 <- tm_map(docs4, content_transformer(tolower))
docs5[[1]]
TermMatrix <- TermDocumentMatrix(docs5)
docsdissim <- dist(as.matrix(TermMatrix), method = "euclidean")
docsdissim2 <- as.matrix(docsdissim)
docsdissim2
h <- hclust(docsdissim, method = "ward.D2")
Error in crossprod(x, y)/sqrt(crossprod(x) * crossprod(y)) non-conformable arrays
- person Brodinsky   schedule 20.10.2016