Очень плохо знаком с R и кодированием и пытаюсь провести частотный анализ длинного списка предложений и их заданного веса. Я удалил вложенные и видоизмененные данные, но когда я пытаюсь удалить стоп-слова, порядок сортировки слов в каждом предложении становится случайным. Мне нужно создать биграммы позже, и я бы предпочел, чтобы они были основаны на исходной фразе.
Вот соответствующий код, может предоставить больше, если недостаточно:
library(dplyr)
library(tidytext)
data = data%>%
anti_join(stop_words)%>%
filter(!is.na(word))
Что я могу сделать, чтобы сохранить исходный порядок сортировки в каждом предложении? Все слова в предложении проиндексированы, поэтому я могу сопоставить их с заданным весом. Есть ли лучший способ удалить стоп-слова, который не испортит порядок сортировки?
Видел здесь аналогичный вопрос, но он не решен: Как чтобы запретить anti_join изменять порядок сортировки в R?
Также попробовал это, но не сработало: сортировать группы внутри отсортированных групп?
Получил помощь от коллеги в написании этого, но, к сожалению, они больше не доступны, поэтому любая информация будет полезна. Спасибо!