У меня есть куча данных о клиентах, которые нормализованы в несколько таблиц. Я хочу выбрать наилучшие критерии, чтобы сделать наилучшее предположение, что клиент может быть тем же самым. Должен быть баланс между минимизацией количества дубликатов, а также минимизацией ложных срабатываний и, следовательно, прерыванием пользователей, чтобы спросить о потенциальных обманах.
Я смотрю на некоторую комбинацию имени/фамилии + номер телефона || адрес электронной почты.
Первый вопрос: каков хороший набор критериев для определения того, может ли клиент быть таким же, как другой клиент.
Второй вопрос: для этого конкретного приложения я хочу обнаруживать дубликаты только для клиентов, которые зарегистрировались в течение последних 2 месяцев или около того. Это вообще меняет критерии обнаружения?