Вопросы по теме 'crawler4j'
Эффективный дизайн crawler4J для получения данных
Я пытаюсь получить данные с разных веб-сайтов. После поиска в переполнении стека я использую Crawler4j, поскольку многие предлагали это. Ниже мое понимание/дизайн:
1. Get sitemap.xml from robots.txt.
2. If sitemap.xml is not available in...
1653 просмотров
schedule
02.07.2022
Crawler4j дает null в качестве parentURL и ноль в качестве parentDocID при перенаправлении URL.
Я использую последнюю версию Crawler4j для сканирования некоторых URL-адресов каналов. Я передал несколько исходных URL-адресов вместе с идентификатором документа, а также установил нулевую глубину, поскольку мне нужен только контент этой страницы....
548 просмотров
schedule
22.11.2023
Доступ к файлам .lck и jdb, хранящимся через поисковый робот
В настоящее время я использую crawler4j в качестве поискового робота и пытаюсь научиться как работают поисковые роботы. Я запустил сканирование и ожидал, что оно быстро вернет просканированные данные в папку crawlStorageFolder (/data/crawl/root),...
1671 просмотров
schedule
14.02.2024
Веб-сканирование (страницы с поддержкой Ajax / JavaScript) с использованием java
Я новичок в этом поиске в Интернете. Я использую crawler4j для сканирования веб-сайтов. Я собираю необходимую информацию, сканируя эти сайты. Моя проблема в том, что мне не удалось просканировать контент для следующего сайта....
19334 просмотров
schedule
21.04.2023
Crawler4j с приложением Grails выдает ошибку
Это может быть очень простой и глупый вопрос для опытных людей. Но, пожалуйста, помогите. Я пытаюсь использовать Crawler4j в своем приложении Grails, следуя этому руководству. Я знаю его код Java, но я использую его в классе контроллера...
92 просмотров
schedule
18.07.2022
Можно ли игнорировать Http Content-Length?
Я использую Crawler4J для сбора информации о веб-сайте. Но иногда я получаю следующую ошибку:
ИНФОРМАЦИЯ: Исключение при извлечении контента для: {someurl} [преждевременный конец тела сообщения с разделителями Content-Length (ожидается: X;...
869 просмотров
schedule
23.12.2022
Grails: передача значения из контроллера в поток
В моем проекте действие моего контроллера Grails заключается в создании нового потока и вызове папки src/groovy формы класса при каждом выполнении этого действия. Мне нужно передать значение из этого действия в новый создаваемый поток. Как я могу...
639 просмотров
schedule
07.12.2022
Разрешение внешнего банка на создание файла tomcat
У меня проблема в моем приложении.
Он получает данные с веб-сайтов через Crawler4j, и ему необходимо создать несколько каталогов и файлов для управления данными, но tomcat не дает разрешений. Ответ такой:
Не удалось создать эту папку:...
543 просмотров
schedule
23.06.2023
Crawler4j с аутентификацией
Я пытаюсь запустить Crawler4j в личном Redmine для целей тестирования. Я хочу пройти аутентификацию и просканировать приложение на несколько уровней глубины.
Я следую этому руководству из часто задаваемых вопросов Crawler4j. И создайте...
1770 просмотров
schedule
27.08.2022
Предупреждение Crawler4j о недопустимом заголовке файла cookie, из-за которого сканер не может получить эту страницу
Я использую Crawler4j в очень любительских настройках для сканирования статей с сайта (и бойлерпайп для очистки контента). На некоторых сайтах краулер работает очень аккуратно. Но в других случаях он просто не может получить веб-сайт (хотя я все еще...
768 просмотров
schedule
26.05.2022
Веб-краулер против Html-парсера
В чем разница между поисковым роботом и парсером?
В java есть какое-то имя для извлечения библиотек. Например, они называют nutch сканером и jsoup парсером.
Они делают ту же цель?
Они полностью похожи для работы?
спасибо
627 просмотров
schedule
07.07.2023