Использование Excel 2010 и Microsoft «Fuzzy Lookup» для сравнения столбца из 2 рабочих листов. Первый рабочий лист содержит около 48 000 строк (x 3 столбца), второй рабочий лист содержит около 23 000 строк (x 5 столбцов). «Нечеткий поиск» сравнивает один столбец из каждого и возвращает сходство между ними.
Нечеткий поиск выполняется без проблем, и результаты в большинстве случаев кажутся правильными. Например:
W2-NK22/16
на одном листе имеет 0,97 сходства с W2NK2216
.
Но не во всех случаях. Некоторые, которые, как я ожидал, будут иметь некоторую степень сходства, вместо этого имеют 0,000, возвращаемые надстройкой. Например:
761689700000
должен иметь некоторое сходство с:
761689700000EN4239
но добавление Fuzzy Lookup возвращает для него 0,000. Оба поля имеют текстовый формат. Ни перед, ни после них нет пробелов, а первые 12 символов идентичны.
Я удалил и переустановил надстройку и использовал настройки по умолчанию. Единственные другие настройки Fuzzy Lookup, которые я изменил, были в Configure --> Global -- UseApproximateIndexing. Я установил для него значения False и True, которые не повлияли.
У меня есть сотни примеров, подобных приведенному выше, которые показывают сходство в 0,000, но при проверке кажутся очень похожими. Строки до и после них показывают разную степень сходства.
Любые мысли или идеи относительно того, почему это не работает правильно, или лучший способ сделать это приблизительное совпадение, будут оценены.
761689700000EN4239
на761689700000 EN4239
с пробелом и запустите снова. Если теперь он думает, что они совпадают, это символическая проблема. Это приятно знать, но я не знаю, как это исправить. - person Dick Kusleika   schedule 12.10.2015The transformation provides a default set of delimiters used to tokenize the data, but you can add token delimiters to suit the needs of your data.
но я не знаю, как и где вы это делаете. См. также blogs.adatis.co.uk/blogs/jeremykashel/archive/2013/07/05/ - person Dick Kusleika   schedule 20.10.2015