Как нормализовать названия компаний

У нас есть сгенерированные пользователем имена работодателей во всех вариациях. Например, люди ввели или импортировали:

Google
Google, Inc.
Google Inc.
Google Inc.

Для поиска в базе данных это выглядит как другая компания. Мы изменили некоторые вещи, чтобы сопоставить каждого работодателя с «нормализованным» именем, но с общим количеством 70 000 становится трудно сделать это вручную.

Есть ли у кого-нибудь предложения о том, как нормализовать существующие записи, а также как сделать это и для всех входящих имен?


person user577808    schedule 02.11.2011    source источник
comment
См. также stackoverflow.com/questions/4835318/   -  person Joel Spolsky    schedule 02.11.2011
comment
См. также stackoverflow.com/questions/429385/   -  person Joel Spolsky    schedule 02.11.2011
comment
Я провел некоторые исследования в этой области и нашел недавнюю статью, в которой обсуждается подход к извлечению, обнаружению (посредством кластеризации) и нормализации (посредством расширенного расчета расстояния редактирования) имен организаций. NEMO   -  person fjxx    schedule 12.06.2013


Ответы (1)


Есть две вещи, которые вы можете сделать, чтобы помочь:

  • Когда пользователи добавляют название компании, дайте им поле автозаполнения, чтобы они получали предложения, если оно уже существует. В качестве альтернативы предложите существующий, как это делает stackoverflow, когда вы добавляете вопрос.

  • Используйте инструмент поиска при запросе базы данных, чтобы вы могли суммировать все варианты. Вы можете найти жемчужины поиска здесь https://www.ruby-toolbox.com/categories/rails_search

Я не думаю, что «нормализация» их постфактум будет легкой и точной.

person Joel Friedlaender    schedule 02.11.2011
comment
У нас есть поле автозаполнения, но большая часть данных импортируется с других платформ, таких как LinkedIn и Facebook, поэтому над этим меньше контроля. - person user577808; 02.11.2011