Благодаря помощи этого сообщества я смог сделать несколько облаков слов из сценариев фильмов, и это становится все проще и проще. Кто-то попросил меня сняться в фильме «Пан», так что я нашел сценарий и поехал.
Проблема в том, что появилось несколько слов, которые я закодировал для удаления. Они выглядят как 'il, ve, 're и т. д. Обратите внимание на начальный апостроф.
Вот мой код:
text = readLines("C:/Users/MyName/Downloads/Pan.txt",encoding="UTF-8")
content2 = Corpus(VectorSource(text))
content2 = tm_map(content2, removeNumbers)
content2 = tm_map(content2, tolower)
content2 = tm_map(content2, removeWords, c("'il","'re","cont'd"))
content2 = tm_map(content2, removeWords, stopwords('english'))
content2 = tm_map(content2, removePunctuation)
content2 = tm_map(content2,PlainTextDocument)
wordcloud(content2, min.freq = 10, colors = RColorBrewer::brewer.pal(6,"Spectral"),max.words=150)
Я безуспешно пытался найти 'il в Notepad ++, и функция R removeWords, похоже, тоже не заботится об этом. Я знаю, что для апострофов и других специальных символов иногда могут потребоваться специальные методы, но я застрял здесь. Любые идеи?
Вот источник скрипта, если интересно: http://pastebin.com/JiK3pF5f
Благодарю вас! Вот как сейчас выглядит облако слов. Если у вас есть какие-либо комментарии по стилю, я весь внимание.