Я хочу провести нечеткое сопоставление американских округов по десятилетиям, используя stringdist_join. Поскольку названия округов меняются с течением времени, я хочу, чтобы каждое десятилетие соответствовало правильному названию округа.
Если я напишу:
stringdist_join(mispelled,correct,by=c('decade','county'))
Затем stringdist_join также будет выполнять нечеткое сопоставление по десятилетию, например, сопоставление С 1960 по 1970 год, когда на самом деле я хочу рассматривать переменную десятилетия как правильную и только нечеткое соответствие округам.
Я вижу, что мне нужно сгруппировать неверно написанные и исправленные фреймы данных по десятилетиям, а затем запустить каждый отдельно, но я не знаю, как это сделать. Решения Tidyverse будут предпочтительнее.
Спасибо!