Я извлек рецензии на фильм на IMDB, но между отдельными рецензиями много пустых строк. Он неструктурирован и очень труден для просмотра. Я должен применить определенные функции к каждой из них отдельно, а затем сохранить их вместе как 1 для некоторого интеллектуального анализа текста для некоторых других функций.
Как я могу структурировать (очистить) их и получить к ним доступ по одному, а также как их объединить и хранить вместе?
Вот мой код для очистки отзывов
ID <- 1490017
URL <- paste0("http://www.imdb.com/title/", ID, "/reviews?filter=prolific")
MOVIE_URL <- read_html(URL)
ex_review <- MOVIE_URL %>%
html_nodes("p") %>%
html_text()