Я пытаюсь создать портал для агрегирования книг. Nutch предоставляет мне отличный поисковый робот, но мне нужна очень конкретная информация, такая как название книги, цена книги, ISBN, автор и т. Д. Как извлечь эту информацию из просканированных страниц? Я хотел бы получить эту информацию, если возможно, в формате XML.
В дополнение к вышесказанному, я хотел бы спросить, правильный ли это подход! Можно ли сделать это лучше с помощью другого программного обеспечения с открытым исходным кодом?