Парсинг Nutch 2 и исходящие ссылки

Я заметил, что плагины синтаксического анализа, такие как tika, извлекают исходящие ссылки из контента, но объект WebPage, переданный в методе getParse/2, уже имеет 2 массива, содержащих исходящие и входящие ссылки.

В чем разница между извлечением в getParse и после извлечения.

Спасибо.

nutch

Hugo Alves 13.08.2012 источник

Ответы (1)

arrow_upward
0
arrow_downward

Объект веб-страницы создается из информации в базе данных nutch, в моем случае hsql.

Поле исходящих ссылок веб-страницы (и некоторые другие) заполняется после процесса синтаксического анализа (после возврата метода getParse).

Hugo Alves 14.08.2012

Парсинг Nutch 2 и исходящие ссылки

Ответы (1)

Похожие вопросы