Я только что написал сценарий, который извлекает весь устный текст голландского парламента из нескольких тысяч XML-файлов. Для каждого говорящего подсчитывается количество раз, когда говорящий сказал несколько слов.
После этого я рассчитал значение TF * IDF для каждого слова для каждого говорящего в голландском парламенте. Если вы не знакомы с этим, перейдите по этой ссылке: объяснение TF IDF
Итак, теперь у меня есть словарь для каждого выступающего в голландском парламенте, где ключами являются слова, которые он сказал, а значениями являются соответствующие значения TF*IDF:
{u'asielzoekers': 0.0034861170591325486,
u'belastingverlaging': 0.0018551991553514675,
u'buma': 0.0020712555982839408,
u'islam': 0.0029519544163739155,
u'moslims': 0.0027958002747301355,
u'ouderen': 0.0022803123245457566,
u'pechtold': 0.0021525864470786928,
u'president': 0.003281844532743345,
u'rutte': 0.0023488684001475584,
u'samsom': 0.0019304632325980841}
Прямо сейчас я хочу создать облако слов из этих значений. Я быстро изучил модуль wordcloud, написанный amueller, но, насколько я понимаю, этот модуль работает не со словарем, а с обычным текстом.
Поэтому любая помощь в том, как создать облако слов из значений словаря, будет высоко оценена.
Заранее спасибо!
WordCloud().generate_from_frequencies(MyData)
где MyData — это словарь. - person fredtantini   schedule 31.03.2017