Есть ли простой способ, как найти не только наиболее часто встречающиеся термины, но и выражения (то есть более одного слова, группы слов) в текстовом корпусе в R?
Используя пакет tm, я могу найти такие наиболее часто встречающиеся термины:
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=3, highfreq=Inf)
Я могу найти слова, связанные с наиболее часто встречающимися словами, используя функцию findAssocs()
, поэтому я мог вручную сгруппировать эти слова. Но как найти количество вхождений этих групп слов в корпус?
Спасибо