Я использую Crawler4J для сбора информации о веб-сайте. Но иногда я получаю следующую ошибку:
ИНФОРМАЦИЯ: Исключение при извлечении контента для: {someurl} [преждевременный конец тела сообщения с разделителями Content-Length (ожидается: X; получено: Y]
(Мне) непонятно, просто ли это происходит, если X ‹ Y или наоборот тоже.
Исключение выдается в "fetcher.PageFetchResult.java" в fetchContent (я думаю, при получении заголовков ответа).
Итак, мой вопрос: есть ли возможность (как правило) игнорировать длину содержимого http и все равно получать информацию?
Я уже просмотрел проблемы с crawler4j, но подобной проблемы нет.
Может быть, у кого-то из сообщества stackoverflow есть идея, как это решить.
Большое спасибо,
Хисуши
ИЗМЕНИТЬ
Код (фрагмент), который вызывает это исключение:
public boolean fetchContent(Page page) {
try {
page.load(entity);
page.setFetchResponseHeaders(responseHeaders);
return true;
} catch (Exception e) {
logger.log(Level.INFO, "Exception while fetching content for: " + page.getWebURL().getURL() + " [" + e.getMessage()
+ "]");
}
return false;
}
responseHeaders и entity имеют значение null (по умолчанию):
protected HttpEntity entity = null;
protected Header[] responseHeaders = null;