Я ищу универсальный API/веб-сервис/инструмент/и т. д., который позволяет преобразовывать заданную HTML-страницу в граф RDF как можно более конкретно (скорее всего, используя онтологию опорной кости и/или картограф).
Преобразование HTML в RDF
Ответы (3)
Вы доказали GRDDL?
GRDDL — это метод получения данных RDF из документов XML и, в частности, страниц XHTML.
Я использовал XQuery для извлечения данных из заданного набора веб-страниц. Мне пришлось писать пользовательские запросы для веб-страниц. Я думаю, что это самый простой подход для определенного набора файлов HTML. Однако для общего случая это явно не годится. Для другого набора веб-страниц необходимо написать другие пользовательские запросы.
Я использовал JSoup для извлечения данных из HTML. Он использует стиль jQuery для запросов HTML DOM, с которым я уже был знаком, поэтому для меня это был очень простой инструмент. Я также финансирую его довольно надежно, но мне он нужен только для очистки 3 источников данных, поэтому у меня пока нет большого опыта работы с этим инструментом. jsoup
div's
,p's
и так далее? Возьмем, к примеру, эту SO-страницу: каким должен быть ваш желаемый вывод RDF? - person Pēteris Caune   schedule 01.03.2010