Парсинг Nutch 2 и исходящие ссылки

Я заметил, что плагины синтаксического анализа, такие как tika, извлекают исходящие ссылки из контента, но объект WebPage, переданный в методе getParse/2, уже имеет 2 массива, содержащих исходящие и входящие ссылки.

В чем разница между извлечением в getParse и после извлечения.

Спасибо.


person Hugo Alves    schedule 13.08.2012    source источник


Ответы (1)


Объект веб-страницы создается из информации в базе данных nutch, в моем случае hsql.

Поле исходящих ссылок веб-страницы (и некоторые другие) заполняется после процесса синтаксического анализа (после возврата метода getParse).

person Hugo Alves    schedule 14.08.2012