Nutch crawl без ошибок, но и результат никакой

Я пытаюсь просканировать некоторые URL-адреса с помощью nutch 2.1 следующим образом.

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

http://wiki.apache.org/nutch/NutchTutorial

Ошибки нет, но не создаются указанные ниже папки.

crawl/crawldb
crawl/linkdb
crawl/segments

Может кто-нибудь помочь мне? Я не могу решить эту проблему в течение двух дней. Большое спасибо!

вывод следующий.

FetcherJob: threads: 10
FetcherJob: parsing: false
FetcherJob: resuming: false
FetcherJob : timelimit set for : -1
Using queue mode : byHost
Fetcher: threads: 10
QueueFeeder finished: total 0 records. Hit by time limit :0
-finishing thread FetcherThread1, activeThreads=0
Fetcher: throughput threshold: -1
Fetcher: throughput threshold sequence: 5
-finishing thread FetcherThread2, activeThreads=7
-finishing thread FetcherThread3, activeThreads=6
-finishing thread FetcherThread4, activeThreads=5
-finishing thread FetcherThread5, activeThreads=4
-finishing thread FetcherThread6, activeThreads=3
-finishing thread FetcherThread7, activeThreads=2
-finishing thread FetcherThread0, activeThreads=1
-finishing thread FetcherThread8, activeThreads=0
-finishing thread FetcherThread9, activeThreads=0
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0.0 pages/s, 0 0 kb/s, 0 URLs in 0 queues
-activeThreads=0
ParserJob: resuming:    false
ParserJob: forced reparse:  false
ParserJob: parsing all
FetcherJob: threads: 10
FetcherJob: parsing: false
FetcherJob: resuming: false
FetcherJob : timelimit set for : -1
Using queue mode : byHost
Fetcher: threads: 10
QueueFeeder finished: total 0 records. Hit by time limit :0
-finishing thread FetcherThread1, activeThreads=0
Fetcher: throughput threshold: -1
Fetcher: throughput threshold sequence: 5
-finishing thread FetcherThread2, activeThreads=7
-finishing thread FetcherThread3, activeThreads=6
-finishing thread FetcherThread4, activeThreads=5
-finishing thread FetcherThread5, activeThreads=4
-finishing thread FetcherThread6, activeThreads=3
-finishing thread FetcherThread7, activeThreads=2
-finishing thread FetcherThread0, activeThreads=1
-finishing thread FetcherThread8, activeThreads=0
-finishing thread FetcherThread9, activeThreads=0
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0.0 pages/s, 0 0 kb/s, 0 URLs in 0 queues
-activeThreads=0
ParserJob: resuming:    false
ParserJob: forced reparse:  false
ParserJob: parsing all
FetcherJob: threads: 10
FetcherJob: parsing: false
FetcherJob: resuming: false
FetcherJob : timelimit set for : -1
Using queue mode : byHost
Fetcher: threads: 10
QueueFeeder finished: total 0 records. Hit by time limit :0
Fetcher: throughput threshold: -1
Fetcher: throughput threshold sequence: 5
-finishing thread FetcherThread9, activeThreads=9
-finishing thread FetcherThread0, activeThreads=8
-finishing thread FetcherThread1, activeThreads=7
-finishing thread FetcherThread2, activeThreads=6
-finishing thread FetcherThread3, activeThreads=5
-finishing thread FetcherThread4, activeThreads=4
-finishing thread FetcherThread5, activeThreads=3
-finishing thread FetcherThread6, activeThreads=2
-finishing thread FetcherThread7, activeThreads=1
-finishing thread FetcherThread8, activeThreads=0
0/0 spinwaiting/active, 0 pages, 0 errors, 0.0 0.0 pages/s, 0 0 kb/s, 0 URLs in 0 queues
-activeThreads=0
ParserJob: resuming:    false
ParserJob: forced reparse:  false
ParserJob: parsing all

время выполнения/локальные/conf/nutch-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->


<configuration>
<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

<property>
 <name>storage.data.store.class</name>
 <value>org.apache.gora.hbase.store.HBaseStore</value>
 <description>Default class for storing data</description>
</property>
<property>
  <name>http.robots.agents</name>
  <value>My Nutch Spider</value>
  <description>The agent strings we'll look for in robots.txt files,
  comma-separated, in decreasing order of precedence. You should
  put the value of http.agent.name as the first agent name, and keep the
  default * at the end of the list. E.g.: BlurflDev,Blurfl,*
  </description>
</property>
<property>
  <name>http.content.limit</name>
  <value>262144</value>
</property>
</configuration>

время выполнения/локальные/конф/regex-urlfilter.txt

# accept anything else
+.

время выполнения/локальные/urls/seed.txt

http://nutch.apache.org/

person Gen Kim    schedule 14.04.2013    source источник


Ответы (1)


Поскольку вы используете Nutch 2.X, вам необходимо следовать соответствующему руководству. Тот, что вы дали, был для Nutch 1.x. Nutch 2.X использует внешние серверы хранения, такие как HBase, Cassandra, поэтому каталоги crawldb, segments и т. д. не будут формироваться.

Кроме того, используйте сценарий bin/crawl вместо команды bin/nutch.

person Tejas Patil    schedule 16.04.2013
comment
Спасибо за ответ. Я понял! - person Gen Kim; 17.04.2013
comment
Спасибо, Теджас. Я долго пытался найти туториал по Nutch 2.X. Все, что я смог найти, это nlp.solutions.asia/?p=180 и ничего о Nutch. сайт вики. Ваш ответ помогает. Кроме того, я никогда не понимал, что должен использовать bin/crawl вместо bin/nutch. Раньше я использовал Nutch 1.X, а недавно перешел на 2.X с множеством проблем. Одна очевидная ошибка, которую я только что понял из вашего поста, - это использование bin/nutch. где я могу найти дополнительную информацию об использовании скрипта bin/crawl? - person sunskin; 17.04.2013
comment
@user1830069 user1830069 это простой сценарий. Вы можете пройти через это и понять это. - person Tejas Patil; 19.04.2013
comment
@TejasP: я не нахожу этот скрипт в корзине Nutch 2.1. Единственный скрипт, который у меня есть, это bin/nutch. Пожалуйста, дайте мне знать, где я могу найти его. - person sunskin; 19.04.2013
comment
@ user1830069 странно. Он должен быть в каталоге bin. Какой релиз используете? Я не уверен, когда этот скрипт был добавлен, но если вы доберетесь до последней кодовой базы, вы сможете получить его там. - person Tejas Patil; 20.04.2013
comment
@TejasP: я использую Nutch 2.1, загруженную с mirror.reverse.net/pub/apache /нутч/2.1. Я не вижу скрипт bin/crawl в каталоге bin. Он имеет только скрипт bin/nutch. Пожалуйста, дайте мне знать, если у вас есть лучшая ссылка с последней кодовой базой - person sunskin; 22.04.2013
comment
@user1830069 user1830069 новый скрипт был добавлен в новую кодовую базу, которая готовится к новому выпуску. Ссылка на репозиторий svn для этого: svn.apache.org/viewvc/nutch /ветки/2.x - person Tejas Patil; 23.04.2013
comment
@TejasP: Спасибо за ссылку. Ссылка, которую вы мне дали, является выпуском разработки или производственным? - person sunskin; 23.04.2013