Удалить фразу с апострофом в R для облака слов

Благодаря помощи этого сообщества я смог сделать несколько облаков слов из сценариев фильмов, и это становится все проще и проще. Кто-то попросил меня сняться в фильме «Пан», так что я нашел сценарий и поехал.

Проблема в том, что появилось несколько слов, которые я закодировал для удаления. Они выглядят как 'il, ve, 're и т. д. Обратите внимание на начальный апостроф.

Вот мой код:

text = readLines("C:/Users/MyName/Downloads/Pan.txt",encoding="UTF-8")

content2 = Corpus(VectorSource(text))
content2 = tm_map(content2, removeNumbers)
content2 = tm_map(content2, tolower)
content2 = tm_map(content2, removeWords, c("'il","'re","cont'd"))
content2 = tm_map(content2, removeWords, stopwords('english'))
content2 = tm_map(content2, removePunctuation)
content2 = tm_map(content2,PlainTextDocument)
wordcloud(content2, min.freq = 10, colors =  RColorBrewer::brewer.pal(6,"Spectral"),max.words=150)

Я безуспешно пытался найти 'il в Notepad ++, и функция R removeWords, похоже, тоже не заботится об этом. Я знаю, что для апострофов и других специальных символов иногда могут потребоваться специальные методы, но я застрял здесь. Любые идеи?

Вот источник скрипта, если интересно: http://pastebin.com/JiK3pF5f

Благодарю вас! Вот как сейчас выглядит облако слов. Если у вас есть какие-либо комментарии по стилю, я весь внимание.

r special-characters tm word-cloud

user137698 13.06.2016 источник

Ответы (2)

arrow_upward
1
arrow_downward

Это работает для вас? Я только что добавил удаление пробелов и не вижу, например. 'il

library(tm)
library(wordcloud)
text = readLines("~/Downloads/JiK3pF5f.txt", warn = F)
content2 = Corpus(VectorSource(text))
content2 = tm_map(content2, removeNumbers)
content2 = tm_map(content2, tolower)
content2 = tm_map(content2, removeWords, stopwords('english'))
content2 = tm_map(content2, removePunctuation)
content2 = tm_map(content2, trimws)
content2 = tm_map(content2, PlainTextDocument)

wordcloud(content2, min.freq = 10, colors = RColorBrewer::brewer.pal(6,"Spectral"),max.words=150)

Результат:

effel 13.06.2016

comment

К сожалению, да, они все еще там. Я запустил именно этот код и вот что я вижу. Обратите внимание, что внизу есть «re» и «il». Можете ли вы опубликовать изображение вашего облака слов? i.imgur.com/4lG6Gkx.png?1 - user137698; 13.06.2016

comment

Это может быть кодировка. Я удалил часть моего readLines() с параметром UTF-8 и заметил некоторые странные результаты. Кроме того, если я использую файл pastebin, как вы, и запускаю код, я заметил, что TM появляется вместо апострофа. - user137698; 13.06.2016

comment

Интересно, я разместил изображение, которое я получаю. Можете ли вы найти в Корпусе пример 'il? - effel; 13.06.2016

comment

Спасибо. Должен признаться, я не знаю, как искать в корпусе. Кажется, можно использовать функцию grep(), но это конкретная фраза. Я искал советы в SOF и Google, но пока не нашел пример, который я могу смоделировать. - user137698; 13.06.2016

arrow_upward
0
arrow_downward

Вы пробовали gsub заменить эти символы? Например:

library(tm)
library(wordcloud)
text = readLines("~/Downloads/JiK3pF5f.txt", warn = F)

text=gsub("'re", '', text)

content2 = Corpus(VectorSource(text))
content2 = tm_map(content2, removeNumbers)
content2 = tm_map(content2, tolower)
content2 = tm_map(content2, removeWords, stopwords('english'))
content2 = tm_map(content2, removePunctuation)
content2 = tm_map(content2, trimws)
content2 = tm_map(content2, PlainTextDocument)

wordcloud(content2, min.freq = 10, colors = RColorBrewer::brewer.pal(6,"Spectral"),max.words=150)

Также вы можете попробовать с Quanteda: https://cran.r-project.org/web/packages/quanteda/vignettes/quickstart.html

Он также имеет немного лучшую производительность, чем tm

Matias Thayer 13.06.2016

comment

Спасибо за ответ. Метод gsub мне не помог. Я не знаю почему. - user137698; 13.06.2016

Удалить фразу с апострофом в R для облака слов

Ответы (2)

Похожие вопросы