Как получить информацию в формате XML из базы данных веб-страниц Nutch

Я пытаюсь создать портал для агрегирования книг. Nutch предоставляет мне отличный поисковый робот, но мне нужна очень конкретная информация, такая как название книги, цена книги, ISBN, автор и т. Д. Как извлечь эту информацию из просканированных страниц? Я хотел бы получить эту информацию, если возможно, в формате XML.

В дополнение к вышесказанному, я хотел бы спросить, правильный ли это подход! Можно ли сделать это лучше с помощью другого программного обеспечения с открытым исходным кодом?


person deepdive    schedule 09.04.2013    source источник


Ответы (1)


Это зависит от того, насколько структурированы данные.

Я предполагаю, что вы сканируете в основном HTML-страницы.

Часто вы можете использовать XPath для захвата частей страницы, например "// div [ @ class = 'books'] / a / text () "

Если большая часть текста неструктурирована (нет структурированных шаблонов HTML для захвата), вам придется использовать регулярные выражения или извлечение информации.

Если вам повезет, вы можете сделать часть / большую часть этого, используя регулярные выражения.

Для некоторых более сложных структур вам нужно будет использовать извлечение информации / распознавание именованных сущностей.

Вам потребуется обучить инструмент IE, например Стэнфордский CoreNLP, чтобы распознавать, скажем, книгу заголовки и аннотируйте их в своих документах. Также ознакомьтесь с BRAT Rapid Annotation Tool.

Такие службы, как Mozenda, могут выполнять сканирование и работу X-Path за вас, но я не видел компании, которая предоставляла бы услуги IE.

person Neil McGuigan    schedule 10.04.2013