В настоящее время я использую метод get_close_matches из difflib для перебора списка из 15 000 строк, чтобы получить наиболее близкое совпадение с другим списком примерно из 15 000 строк:
a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cutoff=.85)
Для каждого значения требуется 0,58 секунды, что означает, что для завершения цикла потребуется 8714 секунд или 145 минут. Есть ли другая библиотека/метод, который может быть быстрее, или способ повысить скорость этого метода? Я уже пытался преобразовать оба массива в нижний регистр, но это привело лишь к небольшому увеличению скорости.