Текстовая рекомендация с Lucene/solr/mahout

Я работаю над проектом, в котором мне нужно реализовать механизм рекомендаций по статьям/новостям. Я думаю о комбинировании различных методов (на основе элементов, на основе пользователей, модели CF), и у меня есть вопрос относительно используемого инструмента.

Из моего исследования Lucene определенно является инструментом для обработки текста, но для части рекомендаций это не так ясно. Если я хочу внедрить элемент CF в статьи на основе сходства текста: - Я видел тематические исследования с использованием Mahout, но также и solr (http://fr.slideshare.net/lucenerevolution/building-a-realtime).-solrpowered-recommendation-engine), так как это очень близко к проблеме поиска Я думаю, что Solr может быть лучше, я прав? - Каковы различия во времени обработки между двумя инструментами (я думаю, что Mahout больше работает в пакетном режиме и в режиме реального времени)? - Могу ли я получить текстовое расстояние непосредственно из Lucene (мне не совсем понятно, какова добавленная стоимость solr по сравнению с Lucene)? - Для более продвинутого метода (модель, основанная на матричной факторизации) я бы использовал Mahout, но есть ли в solr какая-либо функция, подобная SVD, для обнаружения концепции/тега?

Спасибо за вашу помощь.


person Alex    schedule 06.11.2013    source источник


Ответы (1)


это зависит от ваших требований, если вам нужна только автономная функция рекомендаций, mahout хорош. для онлайна я тоже тестирую. На самом деле, я тестировал lucene и mahout, они отлично работают вместе. для solr я не уверен, все, что я знаю, использует lucene в качестве ядра. поэтому всю тяжелую работу по-прежнему выполняет lucene. В моем случае я объединил mahout и lucene в своей Java-программе, в основном lucene выполняет предварительную обработку и вычисления примитивного подобия, а затем результат отправляется mahout для дальнейшего анализа.

person ikel    schedule 24.02.2014
comment
Вы не против поделиться своим кодом? Я также пытаюсь сгруппировать кучу новостных статей, сохраненных в индексе lucene. Какую кластеризацию вы использовали от mahout? Насколько хорошо он масштабируется? Спасибо! - person nilsi; 01.04.2014