Запрос облака слов сравнения

Я использовал функцию compare.cloud в пакете wordcloud в R. Слово «хорошо» появилось в категориях Cat1 (27 раз) и Cat2 (33 раза), однако в wordcloud оно появляется только в категории Cat1 по некоторым причинам (возможно, потому, что это первый столбец).

Можете ли вы подсказать, как его настроить, чтобы получить все слова (даже если это одни и те же слова в нескольких категориях). Это важный вывод для моего набора данных, и он не дает возможности сравнивать облако, когда удаляет самое важное слово из Cat2.

Данные выглядят так:

       Cat1     Cat2     Cat3

хорошо --- 27 -------- 33 --------- 3

плохо --- 10 ----------- 6 --------- 4

...

Код:

облако слов сравнения

tdm = read.table ("doc.csv")

png ("compareision_wordcloud.png", ширина = 1280, высота = 800)

compare.cloud (tdm, colors = brewer.pal (nemo, "Dark2"), use.r.layout = FALSE,

             scale = c(4,.5), max.words = 1000, rot.per=.1, random.order = FALSE, title.size = 2)

Дайте мне знать, если это можно быстро исправить.


person Ravinder Singh    schedule 18.06.2015    source источник


Ответы (1)


Насколько я понимаю, облако сравнения вычисляет, в какую категорию с наибольшей вероятностью попадет каждый термин (т. Е. Термин «хорошо» чаще всего встречается в категории 1). Таким образом, каждый термин встречается в облаке сравнения только один раз.

Я не смотрел код, стоящий за функцией, но полагаю, что она начинается с вычисления среднего значения слова «хорошо» во всех категориях вместе взятых, а затем для каждой категории по очереди. Вычисляя разницу между средним значением термина в каждой категории и общим средним значением, вы можете определить, в какой категории термин должен отображаться в облаке (т. Е. Наибольшая положительная разница между общим средним значением и средним значением категории).

Следовательно, в вашем примере: хотя «хорошо» чаще встречается в cat 2, вероятно, в cat1 меньше общих терминов, поэтому на самом деле это будет более важно в cat1. Суть в том, что я не думаю, что облако сравнения будет делать то, что вы хотите.

person Richard    schedule 02.04.2016