Я пытаюсь оценить, подходят ли технологии Nutch/Solr/Hadoop для моей задачи.
PS: Раньше я пытался интегрировать Nutch (1.4) и Hadoop, чтобы посмотреть, как это работает.
Вот чего я пытаюсь достичь в целом: а) Начните с исходного URL-адреса и просканируйте и проанализируйте/сохраните данные/ссылки - что в любом случае делает сканер Nutch.
б) Затем иметь возможность запрашивать просканированные индексы из клиента Java --- (может быть либо с использованием клиента SolrJ)
c) Поскольку Nutch (начиная с версии 1.4.x) уже использует Hadoop для внутреннего использования. Я просто установлю Hadoop и настрою в nutch-**.xml
d) Я хочу, чтобы Nutch сохранял просканированные индексы в Amazon S3, а также чтобы Hadoop использовал S3 в качестве файловой системы. Это вообще возможно? или даже стоит?
e) Я читал на одном из форумов, что в Nutch 2.0 есть слой данных, использующий GORA, который может сохранять индексы в HBase и т. д. Я не знаю, когда должен выйти релиз 2.0. :-( Кто-нибудь предлагает взять "незавершенный" ствол 2.0 и начать его использовать, надеясь рано или поздно получить выпущенную библиотеку?
PS: я все еще пытаюсь понять, как/когда/почему/где Nutch использует Hadoop внутри компании. Я просто не могу найти письменную документацию или учебные пособия. Любая помощь в этом аспекте также очень ценится.
Если вы читаете эту строку, то большое вам спасибо за то, что дочитали этот пост до этого момента :-)