Статьи по тематике crawler4j

Вопросы по теме 'crawler4j'

Эффективный дизайн crawler4J для получения данных

Я пытаюсь получить данные с разных веб-сайтов. После поиска в переполнении стека я использую Crawler4j, поскольку многие предлагали это. Ниже мое понимание/дизайн: 1. Get sitemap.xml from robots.txt. 2. If sitemap.xml is not available in...

1653 просмотров

parsing web-crawler crawler4j

02.07.2022

Crawler4j дает null в качестве parentURL и ноль в качестве parentDocID при перенаправлении URL.

Я использую последнюю версию Crawler4j для сканирования некоторых URL-адресов каналов. Я передал несколько исходных URL-адресов вместе с идентификатором документа, а также установил нулевую глубину, поскольку мне нужен только контент этой страницы....

548 просмотров

java web-crawler crawler4j

22.11.2023

Доступ к файлам .lck и jdb, хранящимся через поисковый робот

В настоящее время я использую crawler4j в качестве поискового робота и пытаюсь научиться как работают поисковые роботы. Я запустил сканирование и ожидал, что оно быстро вернет просканированные данные в папку crawlStorageFolder (/data/crawl/root),...

1671 просмотров

java parsing web-crawler crawler4j

14.02.2024

Веб-сканирование (страницы с поддержкой Ajax / JavaScript) с использованием java

Я новичок в этом поиске в Интернете. Я использую crawler4j для сканирования веб-сайтов. Я собираю необходимую информацию, сканируя эти сайты. Моя проблема в том, что мне не удалось просканировать контент для следующего сайта....

19334 просмотров

java web-crawler crawler4j

21.04.2023

Crawler4j с приложением Grails выдает ошибку

Это может быть очень простой и глупый вопрос для опытных людей. Но, пожалуйста, помогите. Я пытаюсь использовать Crawler4j в своем приложении Grails, следуя этому руководству. Я знаю его код Java, но я использую его в классе контроллера...

92 просмотров

grails groovy crawler4j

18.07.2022

Можно ли игнорировать Http Content-Length?

Я использую Crawler4J для сбора информации о веб-сайте. Но иногда я получаю следующую ошибку: ИНФОРМАЦИЯ: Исключение при извлечении контента для: {someurl} [преждевременный конец тела сообщения с разделителями Content-Length (ожидается: X;...

869 просмотров

java http-content-length crawler4j

23.12.2022

Grails: передача значения из контроллера в поток

В моем проекте действие моего контроллера Grails заключается в создании нового потока и вызове папки src/groovy формы класса при каждом выполнении этого действия. Мне нужно передать значение из этого действия в новый создаваемый поток. Как я могу...

639 просмотров

multithreading grails groovy crawler4j

07.12.2022

Разрешение внешнего банка на создание файла tomcat

У меня проблема в моем приложении. Он получает данные с веб-сайтов через Crawler4j, и ему необходимо создать несколько каталогов и файлов для управления данными, но tomcat не дает разрешений. Ответ такой: Не удалось создать эту папку:...

543 просмотров

spring-mvc tomcat crawler4j

23.06.2023

Crawler4j с аутентификацией

Я пытаюсь запустить Crawler4j в личном Redmine для целей тестирования. Я хочу пройти аутентификацию и просканировать приложение на несколько уровней глубины. Я следую этому руководству из часто задаваемых вопросов Crawler4j. И создайте...

1770 просмотров

java web-crawler crawler4j

27.08.2022

Предупреждение Crawler4j о недопустимом заголовке файла cookie, из-за которого сканер не может получить эту страницу

Я использую Crawler4j в очень любительских настройках для сканирования статей с сайта (и бойлерпайп для очистки контента). На некоторых сайтах краулер работает очень аккуратно. Но в других случаях он просто не может получить веб-сайт (хотя я все еще...

768 просмотров

java cookies web-crawler crawler4j

26.05.2022

Веб-краулер против Html-парсера

В чем разница между поисковым роботом и парсером? В java есть какое-то имя для извлечения библиотек. Например, они называют nutch сканером и jsoup парсером. Они делают ту же цель? Они полностью похожи для работы? спасибо

627 просмотров

java web-crawler jsoup crawler4j

07.07.2023

Вопросы по теме 'crawler4j'

Похожие вопросы