После обхода Nutch в распределенном режиме (развертывания) следующим образом:
bin/nutch crawl s3n://..... -depth 10 -topN 50000 -dir /crawl -threads 20
Мне нужно извлечь каждый URL-адрес вместе с его содержимым в удобном для карты формате. При использовании приведенной ниже команды readseg содержимое извлекается, но выходной формат не поддается уменьшению карты.
bin/nutch readseg -dump /crawl/segments/* /output -nogenerate -noparse -noparsedata -noparsetext
В идеале вывод должен быть в таком формате:
http://abc.com/1 content of http://abc.com/1
http://abc.com/2 content of http://abc.com/2
Любые предложения о том, как этого добиться?