Вопросы по теме 'nutch'
Проверка орфографии в Nutch 1.0
Может ли кто-нибудь сказать мне, как реализовать проверку орфографии в nutch 1.0?
190 просмотров
schedule
20.10.2022
как заставить ползать орехового краулера
у меня есть некоторые сомнения в том, что когда я использовал вики, меня попросили отредактировать crawl-urlfilter.txt
+^http://([a-z0-9]*\.)*apache.org/
и меня просят создать папку URL-адресов и список URL-адресов...
мне нужно создать...
595 просмотров
schedule
02.06.2024
Проблема с Nutch: java.lang.NoClassDefFoundError
Я пытаюсь запустить Nutch на своем компьютере с Windows. У меня установлены Nutch, Java, Tomcat и Cygwin. Когда я пытаюсь запустить команду сканирования в Cygwin, я получаю следующую ошибку:
java.lang.NoClassDefFoundError:...
4516 просмотров
schedule
10.05.2023
Повышение в Solr на основе даты с условиями
Я пытаюсь повысить новые документы в запросах Solr. Функция ms Solr FAQ кажется правильным путем, но мне нужно добавить дополнительное условие: я использую дату последнего изменения из просканированных веб-страниц в качестве даты для рассмотрения,...
669 просмотров
schedule
01.07.2023
Nutch и сохраняйте данные сканирования в Amazon S3
Я пытаюсь оценить, подходят ли технологии Nutch/Solr/Hadoop для моей задачи.
PS: Раньше я пытался интегрировать Nutch (1.4) и Hadoop, чтобы посмотреть, как это работает.
Вот чего я пытаюсь достичь в целом: а) Начните с исходного URL-адреса и...
2914 просмотров
schedule
30.04.2022
Nutch- как удалить старые сегменты?
В nutch, когда я сканирую, а затем повторно сканирую, создаются дублированные сегменты. как удалить старые?
Я не могу точно знать, что используются только те сегменты, которые были созданы при последнем сканировании, а все остальные можно удалить,...
588 просмотров
schedule
29.06.2023
Как искать записи Solr с любым параметром фильтра?
Я использую apache-nutch-1.4 с apache-solr-3.2.0 . Я могу установить оба и успешно интегрировать.
Когда я ищу слово как 'Болезнь' , это дает результат с такими полями, как название, содержание и URL и т. д.
Теперь я хочу искать записи с...
129 просмотров
schedule
03.03.2024
Извлечение выбранных веб-страниц из Nutch в дружественном формате карты
После обхода Nutch в распределенном режиме (развертывания) следующим образом:
bin/nutch crawl s3n://..... -depth 10 -topN 50000 -dir /crawl -threads 20
Мне нужно извлечь каждый URL-адрес вместе с его содержимым в удобном для карты формате....
1973 просмотров
schedule
19.01.2023
Nutch: как исключить неанглоязычные страницы?
Мне интересно, существует ли простой механизм для исключения страниц, написанных не на английском языке, из процесса индексации? Например, список исходных URL-адресов dmoz содержит страницы википедии на многих языках, и они являются первыми...
136 просмотров
schedule
22.08.2023
Настройте Nutch для индексации только определенных типов файлов в Solr
Я ищу способ настроить Nutch для обхода Интернета, но индексировать в Solr только определенные типы файлов (в частности, XML). Я почти уверен, что пользовательский плагин сделает эту работу, возможно, на основе кода index-more, но я бы не стал этого...
616 просмотров
schedule
11.03.2022
Критерий выбора гайки topN
Учитывает ли пороговое значение topN оценку страницы для выбора. Если установлено значение 10, ставит ли Nutch в очередь 10 самых результативных URL-адресов на странице? Работает ли это через веб-граф или это только первые 10, которые встречаются на...
202 просмотров
schedule
21.02.2023
Нужна помощь в понимании Solr
Я только начинаю работать с Nutch и Solr. Я запустил сканирование один раз только с одним начальным URL-адресом. Я выполнил эту команду:
bin/nutch crawl urls -dir crawl -solr http://localhost:8983/solr/ -depth 3 -topN 5
Все идет хорошо, и я...
654 просмотров
schedule
26.10.2023
Эффект глубины
Мне всегда было интересно, как влияет глубина и высота на ползание орехов? Например, предположим, что глубина 100 и topn 10000 обеспечивают полное сканирование. Повлияет ли изменение глубины на 1000 на время, затрачиваемое на сканирование? Итак,...
1553 просмотров
schedule
12.11.2022
Solr+Nutch+AjaxSolr запрос
1) Я сослался на https://github.com/evolvingweb/ajax-solr/wiki/reuters-tutorial для настройки Ajax-Solr.
Я хочу знать, что хотя ajax-solr работает, но он ищет только данные рейтеров. Если я хочу сканировать Интернет с помощью nutch и...
586 просмотров
schedule
11.06.2023
Парсинг Nutch 2 и исходящие ссылки
Я заметил, что плагины синтаксического анализа, такие как tika, извлекают исходящие ссылки из контента, но объект WebPage, переданный в методе getParse/2, уже имеет 2 массива, содержащих исходящие и входящие ссылки.
В чем разница между извлечением...
230 просмотров
schedule
05.06.2024
Как сканировать англоязычный сайт и не сканировать другие языки?
Привет, мне нужно сканировать только те сайты, язык которых английский. Я знаю, что nutch может определять язык сайтов с помощью таких плагинов, как детектор языка. Но мне нужно запретить nutch сканировать неанглийский сайт. Хотя я знаю, что нам...
736 просмотров
schedule
03.12.2022
Nutch 2.1 - сбой задания исключения во время выполнения задания генератора
Я получаю следующую ошибку, когда пытаюсь сгенерировать URL-адреса с помощью команды generate:
GeneratorJob: java.lang.RuntimeException: задание не выполнено: name=generate: 1357474131-234134646, jobid=job_local_0001 в...
3636 просмотров
schedule
21.05.2023
Как получить информацию в формате XML из базы данных веб-страниц Nutch
Я пытаюсь создать портал для агрегирования книг. Nutch предоставляет мне отличный поисковый робот, но мне нужна очень конкретная информация, такая как название книги, цена книги, ISBN, автор и т. Д. Как извлечь эту информацию из просканированных...
150 просмотров
schedule
26.06.2023
Nutch crawl без ошибок, но и результат никакой
Я пытаюсь просканировать некоторые URL-адреса с помощью nutch 2.1 следующим образом.
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
http://wiki.apache.org/nutch/NutchTutorial
Ошибки нет, но не создаются указанные ниже папки....
2441 просмотров
schedule
18.02.2023
Регулярное выражение Nutch не сканирует так, как я хочу
Хорошо, я уже спрашивал об этом, но, думаю, я не спрашивал об этом так, как ожидает stackoverflow. Надеюсь, на этот раз мне повезет больше и я получу ответ.
Я пытаюсь запустить nutch для сканирования этого сайта: http://www.tigerdirect.com/
Я...
1473 просмотров
schedule
10.03.2022