Вопросы по теме 'crawler4j'

Эффективный дизайн crawler4J для получения данных
Я пытаюсь получить данные с разных веб-сайтов. После поиска в переполнении стека я использую Crawler4j, поскольку многие предлагали это. Ниже мое понимание/дизайн: 1. Get sitemap.xml from robots.txt. 2. If sitemap.xml is not available in...
1653 просмотров
schedule 02.07.2022

Crawler4j дает null в качестве parentURL и ноль в качестве parentDocID при перенаправлении URL.
Я использую последнюю версию Crawler4j для сканирования некоторых URL-адресов каналов. Я передал несколько исходных URL-адресов вместе с идентификатором документа, а также установил нулевую глубину, поскольку мне нужен только контент этой страницы....
548 просмотров
schedule 22.11.2023

Доступ к файлам .lck и jdb, хранящимся через поисковый робот
В настоящее время я использую crawler4j в качестве поискового робота и пытаюсь научиться как работают поисковые роботы. Я запустил сканирование и ожидал, что оно быстро вернет просканированные данные в папку crawlStorageFolder (/data/crawl/root),...
1671 просмотров
schedule 14.02.2024

Веб-сканирование (страницы с поддержкой Ajax / JavaScript) с использованием java
Я новичок в этом поиске в Интернете. Я использую crawler4j для сканирования веб-сайтов. Я собираю необходимую информацию, сканируя эти сайты. Моя проблема в том, что мне не удалось просканировать контент для следующего сайта....
19334 просмотров
schedule 21.04.2023

Crawler4j с приложением Grails выдает ошибку
Это может быть очень простой и глупый вопрос для опытных людей. Но, пожалуйста, помогите. Я пытаюсь использовать Crawler4j в своем приложении Grails, следуя этому руководству. Я знаю его код Java, но я использую его в классе контроллера...
92 просмотров
schedule 18.07.2022

Можно ли игнорировать Http Content-Length?
Я использую Crawler4J для сбора информации о веб-сайте. Но иногда я получаю следующую ошибку: ИНФОРМАЦИЯ: Исключение при извлечении контента для: {someurl} [преждевременный конец тела сообщения с разделителями Content-Length (ожидается: X;...
869 просмотров
schedule 23.12.2022

Grails: передача значения из контроллера в поток
В моем проекте действие моего контроллера Grails заключается в создании нового потока и вызове папки src/groovy формы класса при каждом выполнении этого действия. Мне нужно передать значение из этого действия в новый создаваемый поток. Как я могу...
639 просмотров
schedule 07.12.2022

Разрешение внешнего банка на создание файла tomcat
У меня проблема в моем приложении. Он получает данные с веб-сайтов через Crawler4j, и ему необходимо создать несколько каталогов и файлов для управления данными, но tomcat не дает разрешений. Ответ такой: Не удалось создать эту папку:...
543 просмотров
schedule 23.06.2023

Crawler4j с аутентификацией
Я пытаюсь запустить Crawler4j в личном Redmine для целей тестирования. Я хочу пройти аутентификацию и просканировать приложение на несколько уровней глубины. Я следую этому руководству из часто задаваемых вопросов Crawler4j. И создайте...
1770 просмотров
schedule 27.08.2022

Предупреждение Crawler4j о недопустимом заголовке файла cookie, из-за которого сканер не может получить эту страницу
Я использую Crawler4j в очень любительских настройках для сканирования статей с сайта (и бойлерпайп для очистки контента). На некоторых сайтах краулер работает очень аккуратно. Но в других случаях он просто не может получить веб-сайт (хотя я все еще...
768 просмотров
schedule 26.05.2022

Веб-краулер против Html-парсера
В чем разница между поисковым роботом и парсером? В java есть какое-то имя для извлечения библиотек. Например, они называют nutch сканером и jsoup парсером. Они делают ту же цель? Они полностью похожи для работы? спасибо
627 просмотров
schedule 07.07.2023