Это определенно не так просто решить проблему, которая может быть решена с помощью:
- интеллектуальные функции анализа текста
- грубая аппаратная мощность
- оба из них
- тестирование, тестирование, тестирование
- доработка в конце
Прежде всего, я бы сгруппировал различные источники новостей в какую-то относительно широкую категорию. Вы можете легко определить, что источник технических новостей не будет публиковать новости в экономической категории. (Или будет, вот в чем проблема.)
В большинстве случаев название новости не будет изменено, максимум останется в исходном виде. Таким образом, Категория, Заголовок и Дата публикации являются хорошей отправной точкой для группировки новостей в одну.
Если вы обнаружите проблемы с помощью описанных выше методов, вам потребуется некоторая тонкая настройка «под капотом».
Возможно, вам нужно прочитать всю статью и сравнить две (тысячи) статей слово в слово.
- Есть много стоп-слов, которые могут исказить сравнение, поэтому их нужно игнорировать.
- Вы можете определить синонимы (J Lo = Jennifer Lopez)
Если необработанные тексты новостей похожи (вы можете определить пороговое значение), вы можете снова сравнить другие факторы (описано выше).
Некоторые источники новостей обеспечивают хорошие теги в источнике RSS, возможно, вы тоже можете использовать это, но не полагаться на это.
И помните, вам понадобится много тонкой настройки в начале (около 1 года), тогда все будет в порядке.
person
fabrik
schedule
18.10.2010