Я занимаюсь текстовым анализом большой базы данных для создания индикаторных переменных, которые указывают на появление определенных фраз в поле комментариев наблюдения. Комментарии были введены техническими специалистами, поэтому используемые термины всегда согласованы.
Однако бывают случаи, когда технические специалисты неправильно написали слово, и поэтому моя функция grepl() не улавливает, что фраза (хотя и с ошибкой) встречается в наблюдении. В идеале я хотел бы иметь возможность передавать каждое слово во фразе функции, которая возвращала бы несколько распространенных ошибок или опечаток в указанном слове. Существует ли такая функция R?
Благодаря этому я мог искать все возможные комбинации этих орфографических ошибок фразы в поле комментариев и выводить их в другой фрейм данных. Таким образом, я мог рассматривать каждый случай в отдельности, чтобы определить, действительно ли интересующее меня явление было описано техническим специалистом.
Я погуглил, но нашел только ссылки на фактические пакеты проверки орфографии для R. То, что я ищу, - это «обратная» проверка орфографии. Поскольку количество фраз, которые я ищу, относительно невелико, я реально мог бы проверить наличие орфографических ошибок вручную; Я просто подумал, что было бы неплохо иметь эту возможность встроенной в пакет R для будущих усилий по анализу текста.
Спасибо за уделенное время!
agrep
. Введите?agrep
в R. - person Arun   schedule 02.02.2013aspell()
. статья по этому поводу была в R Журнал несколько выпусков назад. - person Gavin Simpson   schedule 02.02.2013