У меня есть две базы данных a
и b
с названиями научных работ в них. Я хочу объединить эти базы данных в одну базу данных c
.
- Возможно, что
a
содержит заголовки, которых нет вb
, и наоборот. - Возможно, заголовок есть в обеих базах данных
a
иb
. - It is possible that the cases of the letters and the punctuation do not match:
- "This is a Title." VS. "this is a title"
- «Это — еще один — титул». ПРОТИВ. «Это еще один титул»
- «Алгоритм k-mean на основе bla». VS "Алгоритм k-mean на основе bla"
Сначала я подумал об использовании функции расстояния Левенштейна внутри MySQL для сопоставления одинаковых заголовков в обеих базах данных, но, глядя на миллионы строк, я не знаю, будет ли это работать достаточно хорошо. Затем я подумал о полнотекстовом поиске для соответствия заголовкам, но, насколько я знаю, полнотекстовые поиски не соответствуют общим словам, поэтому сопоставления не будут работать хорошо для похожих заголовков, которые на самом деле разные.
В результате мне не нужна 100% процедура согласования. Но я хочу, чтобы скорость была как можно выше. Любой совет?