(Думаю, это тот же вопрос, который вы только что задали на [email protected]? Копирую мой ответ.)
Возможно, вам вообще не нужен Hadoop, а если он вам не нужен, я бы посоветовал вам не использовать его для простоты. Это «необходимое зло» — перешагнуть через определенную точку.
У вас могут быть данные о Cassandra, но вы захотите прочитать их в памяти. Если вы можете сделать дамп в виде файла, вы можете использовать FileDataModel. Или вы можете эмулировать код в FileDataModel, чтобы создать его на основе Cassandra.
Тогда на ваши две потребности легко ответить:
Это даже не проблема рекомендации. Просто выберите реализацию UserSimilarity и используйте ее, чтобы сравнить пользователя со всеми остальными, и выберите тех, у кого наибольшее сходство. (Обертка с CachingUserSimilarity очень поможет.)
Это просто проблема рекомендателя. Используйте GenericUserBasedRecommender с UserSimilarity и DataModel, и все готово.
Это, конечно, может быть намного сложнее, чем это, но это хорошая отправная точка.
Если позже вы будете использовать Hadoop, да, вы должны настроить Hadoop в соответствии с его инструкциями. Нет «настройки» Mahout. Для рекомендателей вы должны посмотреть на один из классов RecommenderJob, который вызывает необходимые задания в вашем кластере Hadoop. Вы бы запустили его с помощью команды «hadoop» — опять же, здесь вам нужно просто понять Hadoop.
В книге Mahout в действии подробно описано большинство заданий Mahout Hadoop.
person
Sean Owen
schedule
13.01.2011