Вопросы по теме 'webharvest'

Установка тайм-аута http для jakarta HttpClient
Я использую приведенный ниже код в файле конфигурации WebHarvest, чтобы определить время ожидания для элемента http в WebHarvest (Webharvest использует Jakarta HttpClient). Но пока я устанавливаю его на 20000, до достижения времени ожидания требуется...
1148 просмотров
schedule 29.03.2022

Веб-скрейпинг с помощью Web-Harvest
Я пытаюсь написать веб-скребок, используя библиотеку веб-урожая, чтобы получить параметры с realtor.com. Есть ли хорошие учебники о том, как это сделать? Я использую Eclipse IDE
1342 просмотров
schedule 28.09.2022

WebHarvest XML неправильно сформирован
Я использую WebHarvest для получения данных с Woot.com и получаю несколько разных ошибок. Я могу получить веб-сайт с помощью первого процесса, но когда я пытаюсь проверить xpath внутри окна переменных, я получаю сообщение об ошибке...
603 просмотров
schedule 28.01.2023

переменная как тег для вывода xml
Я использую веб-инструмент сбора данных для сбора данных с веб-сайта. Я использовал xquery для вывода данных в виде файла xml. Мне нужно использовать переменный тег, для которого я пытался использовать следующее: for $i in (4 to ($count - 2))...
103 просмотров
schedule 03.08.2023

извлекать данные из Pdf с помощью веб-сбора
Как я могу извлечь данные из PDF с помощью Web Harvesting? Я получаю все соответствующие URL-адреса PDF-файлов на странице, но мне не удалось извлечь данные из этих Pdf. Я использую Web Harvest версии 2.0 для извлечения URL-адреса Pdfs. Пожалуйста...
185 просмотров
schedule 24.09.2022

Как получить большие картинки в Google Image
Я хочу собирать картинки из поиска картинок Google. Однако меня постоянно уведомляют об ошибке. Например, URL https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch подходит для моего браузера, но в веб-сборе он...
391 просмотров