Преобразование HTML в RDF

Я ищу универсальный API/веб-сервис/инструмент/и т. д., который позволяет преобразовывать заданную HTML-страницу в граф RDF как можно более конкретно (скорее всего, используя онтологию опорной кости и/или картограф).


person jaxvy    schedule 25.02.2010    source источник
comment
Есть ли у вас контроль над содержимым HTML-документа? Или это должен быть какой-то случайный документ?   -  person Scott    schedule 25.02.2010
comment
Это может быть любой HTML-документ. Мне нужно извлечь структуру документа HTML в график RDF. Если преобразование использует магистральный картограф/онтологию, то это даже лучше.   -  person jaxvy    schedule 26.02.2010
comment
Похоже, что XSPARQL может добиться этого с помощью пользовательского запроса, написанного в соответствии с онтологией...   -  person jaxvy    schedule 27.02.2010
comment
Под структурой HTML-документа вы подразумеваете структуру div's, p's и так далее? Возьмем, к примеру, эту SO-страницу: каким должен быть ваш желаемый вывод RDF?   -  person Pēteris Caune    schedule 01.03.2010


Ответы (3)


Вы доказали GRDDL?

GRDDL — это метод получения данных RDF из документов XML и, в частности, страниц XHTML.

person DaniCE    schedule 05.03.2010

Я использовал XQuery для извлечения данных из заданного набора веб-страниц. Мне пришлось писать пользовательские запросы для веб-страниц. Я думаю, что это самый простой подход для определенного набора файлов HTML. Однако для общего случая это явно не годится. Для другого набора веб-страниц необходимо написать другие пользовательские запросы.

person jaxvy    schedule 09.04.2010

Я использовал JSoup для извлечения данных из HTML. Он использует стиль jQuery для запросов HTML DOM, с которым я уже был знаком, поэтому для меня это был очень простой инструмент. Я также финансирую его довольно надежно, но мне он нужен только для очистки 3 источников данных, поэтому у меня пока нет большого опыта работы с этим инструментом. jsoup

person Srneczek    schedule 07.12.2013