Nutch crawl без ошибок, но и результат никакой

Я пытаюсь просканировать некоторые URL-адреса с помощью nutch 2.1 следующим образом.

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

http://wiki.apache.org/nutch/NutchTutorial

Ошибки нет, но не создаются указанные ниже　папки.

crawl/crawldb
crawl/linkdb
crawl/segments

Может кто-нибудь помочь мне? Я не могу решить эту проблему в течение двух дней. Большое спасибо!

вывод следующий.

FetcherJob: threads: 10
FetcherJob: parsing: false
FetcherJob: resuming: false
FetcherJob : timelimit set for : -1
Using queue mode : byHost
Fetcher: threads: 10
QueueFeeder finished: total 0 records. Hit by time limit :0
-finishing thread FetcherThread1, activeThreads=0
Fetcher: throughput threshold: -1
Fetcher: throughput threshold sequence: 5
-finishing thread FetcherThread2, activeThreads=7
-finishing thread FetcherThread3, activeThreads=6
-finishing thread FetcherThread4, activeThreads=5
-finishing thread FetcherThread5, activeThreads=4
-finishing thread FetcherThread6, activeThreads=3
-finishing thread FetcherThread7, activeThreads=2
-finishing thread FetcherThread0, activeThreads=1
-finishing thread FetcherThread8, activeThreads=0
-finishing thread FetcherThread9, activeThreads=0
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0.0 pages/s, 0 0 kb/s, 0 URLs in 0 queues
-activeThreads=0
ParserJob: resuming:    false
ParserJob: forced reparse:  false
ParserJob: parsing all
FetcherJob: threads: 10
FetcherJob: parsing: false
FetcherJob: resuming: false
FetcherJob : timelimit set for : -1
Using queue mode : byHost
Fetcher: threads: 10
QueueFeeder finished: total 0 records. Hit by time limit :0
-finishing thread FetcherThread1, activeThreads=0
Fetcher: throughput threshold: -1
Fetcher: throughput threshold sequence: 5
-finishing thread FetcherThread2, activeThreads=7
-finishing thread FetcherThread3, activeThreads=6
-finishing thread FetcherThread4, activeThreads=5
-finishing thread FetcherThread5, activeThreads=4
-finishing thread FetcherThread6, activeThreads=3
-finishing thread FetcherThread7, activeThreads=2
-finishing thread FetcherThread0, activeThreads=1
-finishing thread FetcherThread8, activeThreads=0
-finishing thread FetcherThread9, activeThreads=0
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0.0 pages/s, 0 0 kb/s, 0 URLs in 0 queues
-activeThreads=0
ParserJob: resuming:    false
ParserJob: forced reparse:  false
ParserJob: parsing all
FetcherJob: threads: 10
FetcherJob: parsing: false
FetcherJob: resuming: false
FetcherJob : timelimit set for : -1
Using queue mode : byHost
Fetcher: threads: 10
QueueFeeder finished: total 0 records. Hit by time limit :0
Fetcher: throughput threshold: -1
Fetcher: throughput threshold sequence: 5
-finishing thread FetcherThread9, activeThreads=9
-finishing thread FetcherThread0, activeThreads=8
-finishing thread FetcherThread1, activeThreads=7
-finishing thread FetcherThread2, activeThreads=6
-finishing thread FetcherThread3, activeThreads=5
-finishing thread FetcherThread4, activeThreads=4
-finishing thread FetcherThread5, activeThreads=3
-finishing thread FetcherThread6, activeThreads=2
-finishing thread FetcherThread7, activeThreads=1
-finishing thread FetcherThread8, activeThreads=0
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0.0 pages/s, 0 0 kb/s, 0 URLs in 0 queues
-activeThreads=0
ParserJob: resuming:    false
ParserJob: forced reparse:  false
ParserJob: parsing all

время выполнения/локальные/conf/nutch-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->


<configuration>
<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

<property>
 <name>storage.data.store.class</name>
 <value>org.apache.gora.hbase.store.HBaseStore</value>
 <description>Default class for storing data</description>
</property>
<property>
  <name>http.robots.agents</name>
  <value>My Nutch Spider</value>
  <description>The agent strings we'll look for in robots.txt files,
  comma-separated, in decreasing order of precedence. You should
  put the value of http.agent.name as the first agent name, and keep the
  default * at the end of the list. E.g.: BlurflDev,Blurfl,*
  </description>
</property>
<property>
  <name>http.content.limit</name>
  <value>262144</value>
</property>
</configuration>

время выполнения/локальные/конф/regex-urlfilter.txt

# accept anything else
+.

время выполнения/локальные/urls/seed.txt

http://nutch.apache.org/

web-crawler nutch

Gen Kim 14.04.2013 источник

Ответы (1)

arrow_upward
3
arrow_downward

Поскольку вы используете Nutch 2.X, вам необходимо следовать соответствующему руководству. Тот, что вы дали, был для Nutch 1.x. Nutch 2.X использует внешние серверы хранения, такие как HBase, Cassandra, поэтому каталоги crawldb, segments и т. д. не будут формироваться.

Кроме того, используйте сценарий bin/crawl вместо команды bin/nutch.

Tejas Patil 16.04.2013

comment

Спасибо за ответ. Я понял! - Gen Kim; 17.04.2013

comment

Спасибо, Теджас. Я долго пытался найти туториал по Nutch 2.X. Все, что я смог найти, это nlp.solutions.asia/?p=180 и ничего о Nutch. сайт вики. Ваш ответ помогает. Кроме того, я никогда не понимал, что должен использовать bin/crawl вместо bin/nutch. Раньше я использовал Nutch 1.X, а недавно перешел на 2.X с множеством проблем. Одна очевидная ошибка, которую я только что понял из вашего поста, - это использование bin/nutch. где я могу найти дополнительную информацию об использовании скрипта bin/crawl? - sunskin; 17.04.2013

comment

@user1830069 user1830069 это простой сценарий. Вы можете пройти через это и понять это. - Tejas Patil; 19.04.2013

comment

@TejasP: я не нахожу этот скрипт в корзине Nutch 2.1. Единственный скрипт, который у меня есть, это bin/nutch. Пожалуйста, дайте мне знать, где я могу найти его. - sunskin; 19.04.2013

comment

@ user1830069 странно. Он должен быть в каталоге bin. Какой релиз используете? Я не уверен, когда этот скрипт был добавлен, но если вы доберетесь до последней кодовой базы, вы сможете получить его там. - Tejas Patil; 20.04.2013

comment

@TejasP: я использую Nutch 2.1, загруженную с mirror.reverse.net/pub/apache /нутч/2.1. Я не вижу скрипт bin/crawl в каталоге bin. Он имеет только скрипт bin/nutch. Пожалуйста, дайте мне знать, если у вас есть лучшая ссылка с последней кодовой базой - sunskin; 22.04.2013

comment

@user1830069 user1830069 новый скрипт был добавлен в новую кодовую базу, которая готовится к новому выпуску. Ссылка на репозиторий svn для этого: svn.apache.org/viewvc/nutch /ветки/2.x - Tejas Patil; 23.04.2013

comment

@TejasP: Спасибо за ссылку. Ссылка, которую вы мне дали, является выпуском разработки или производственным? - sunskin; 23.04.2013

Nutch crawl без ошибок, но и результат никакой

Ответы (1)

Похожие вопросы