Я работаю над проектом, в котором мне нужно реализовать механизм рекомендаций по статьям/новостям. Я думаю о комбинировании различных методов (на основе элементов, на основе пользователей, модели CF), и у меня есть вопрос относительно используемого инструмента.
Из моего исследования Lucene определенно является инструментом для обработки текста, но для части рекомендаций это не так ясно. Если я хочу внедрить элемент CF в статьи на основе сходства текста: - Я видел тематические исследования с использованием Mahout, но также и solr (http://fr.slideshare.net/lucenerevolution/building-a-realtime).-solrpowered-recommendation-engine), так как это очень близко к проблеме поиска Я думаю, что Solr может быть лучше, я прав? - Каковы различия во времени обработки между двумя инструментами (я думаю, что Mahout больше работает в пакетном режиме и в режиме реального времени)? - Могу ли я получить текстовое расстояние непосредственно из Lucene (мне не совсем понятно, какова добавленная стоимость solr по сравнению с Lucene)? - Для более продвинутого метода (модель, основанная на матричной факторизации) я бы использовал Mahout, но есть ли в solr какая-либо функция, подобная SVD, для обнаружения концепции/тега?
Спасибо за вашу помощь.