Вопросы по теме 'nutch'

Проверка орфографии в Nutch 1.0
Может ли кто-нибудь сказать мне, как реализовать проверку орфографии в nutch 1.0?
190 просмотров
schedule 20.10.2022

как заставить ползать орехового краулера
у меня есть некоторые сомнения в том, что когда я использовал вики, меня попросили отредактировать crawl-urlfilter.txt +^http://([a-z0-9]*\.)*apache.org/ и меня просят создать папку URL-адресов и список URL-адресов... мне нужно создать...
595 просмотров
schedule 02.06.2024

Проблема с Nutch: java.lang.NoClassDefFoundError
Я пытаюсь запустить Nutch на своем компьютере с Windows. У меня установлены Nutch, Java, Tomcat и Cygwin. Когда я пытаюсь запустить команду сканирования в Cygwin, я получаю следующую ошибку: java.lang.NoClassDefFoundError:...
4516 просмотров
schedule 10.05.2023

Повышение в Solr на основе даты с условиями
Я пытаюсь повысить новые документы в запросах Solr. Функция ms Solr FAQ кажется правильным путем, но мне нужно добавить дополнительное условие: я использую дату последнего изменения из просканированных веб-страниц в качестве даты для рассмотрения,...
669 просмотров
schedule 01.07.2023

Nutch и сохраняйте данные сканирования в Amazon S3
Я пытаюсь оценить, подходят ли технологии Nutch/Solr/Hadoop для моей задачи. PS: Раньше я пытался интегрировать Nutch (1.4) и Hadoop, чтобы посмотреть, как это работает. Вот чего я пытаюсь достичь в целом: а) Начните с исходного URL-адреса и...
2914 просмотров
schedule 30.04.2022

Nutch- как удалить старые сегменты?
В nutch, когда я сканирую, а затем повторно сканирую, создаются дублированные сегменты. как удалить старые? Я не могу точно знать, что используются только те сегменты, которые были созданы при последнем сканировании, а все остальные можно удалить,...
588 просмотров
schedule 29.06.2023

Как искать записи Solr с любым параметром фильтра?
Я использую apache-nutch-1.4 с apache-solr-3.2.0 . Я могу установить оба и успешно интегрировать. Когда я ищу слово как 'Болезнь' , это дает результат с такими полями, как название, содержание и URL и т. д. Теперь я хочу искать записи с...
129 просмотров
schedule 03.03.2024

Извлечение выбранных веб-страниц из Nutch в дружественном формате карты
После обхода Nutch в распределенном режиме (развертывания) следующим образом: bin/nutch crawl s3n://..... -depth 10 -topN 50000 -dir /crawl -threads 20 Мне нужно извлечь каждый URL-адрес вместе с его содержимым в удобном для карты формате....
1973 просмотров
schedule 19.01.2023

Nutch: как исключить неанглоязычные страницы?
Мне интересно, существует ли простой механизм для исключения страниц, написанных не на английском языке, из процесса индексации? Например, список исходных URL-адресов dmoz содержит страницы википедии на многих языках, и они являются первыми...
136 просмотров
schedule 22.08.2023

Настройте Nutch для индексации только определенных типов файлов в Solr
Я ищу способ настроить Nutch для обхода Интернета, но индексировать в Solr только определенные типы файлов (в частности, XML). Я почти уверен, что пользовательский плагин сделает эту работу, возможно, на основе кода index-more, но я бы не стал этого...
616 просмотров
schedule 11.03.2022

Критерий выбора гайки topN
Учитывает ли пороговое значение topN оценку страницы для выбора. Если установлено значение 10, ставит ли Nutch в очередь 10 самых результативных URL-адресов на странице? Работает ли это через веб-граф или это только первые 10, которые встречаются на...
202 просмотров
schedule 21.02.2023

Нужна помощь в понимании Solr
Я только начинаю работать с Nutch и Solr. Я запустил сканирование один раз только с одним начальным URL-адресом. Я выполнил эту команду: bin/nutch crawl urls -dir crawl -solr http://localhost:8983/solr/ -depth 3 -topN 5 Все идет хорошо, и я...
654 просмотров
schedule 26.10.2023

Эффект глубины
Мне всегда было интересно, как влияет глубина и высота на ползание орехов? Например, предположим, что глубина 100 и topn 10000 обеспечивают полное сканирование. Повлияет ли изменение глубины на 1000 на время, затрачиваемое на сканирование? Итак,...
1553 просмотров
schedule 12.11.2022

Solr+Nutch+AjaxSolr запрос
1) Я сослался на https://github.com/evolvingweb/ajax-solr/wiki/reuters-tutorial для настройки Ajax-Solr. Я хочу знать, что хотя ajax-solr работает, но он ищет только данные рейтеров. Если я хочу сканировать Интернет с помощью nutch и...
586 просмотров
schedule 11.06.2023

Парсинг Nutch 2 и исходящие ссылки
Я заметил, что плагины синтаксического анализа, такие как tika, извлекают исходящие ссылки из контента, но объект WebPage, переданный в методе getParse/2, уже имеет 2 массива, содержащих исходящие и входящие ссылки. В чем разница между извлечением...
230 просмотров
schedule 05.06.2024

Как сканировать англоязычный сайт и не сканировать другие языки?
Привет, мне нужно сканировать только те сайты, язык которых английский. Я знаю, что nutch может определять язык сайтов с помощью таких плагинов, как детектор языка. Но мне нужно запретить nutch сканировать неанглийский сайт. Хотя я знаю, что нам...
736 просмотров
schedule 03.12.2022

Nutch 2.1 - сбой задания исключения во время выполнения задания генератора
Я получаю следующую ошибку, когда пытаюсь сгенерировать URL-адреса с помощью команды generate: GeneratorJob: java.lang.RuntimeException: задание не выполнено: name=generate: 1357474131-234134646, jobid=job_local_0001 в...
3636 просмотров
schedule 21.05.2023

Как получить информацию в формате XML из базы данных веб-страниц Nutch
Я пытаюсь создать портал для агрегирования книг. Nutch предоставляет мне отличный поисковый робот, но мне нужна очень конкретная информация, такая как название книги, цена книги, ISBN, автор и т. Д. Как извлечь эту информацию из просканированных...
150 просмотров
schedule 26.06.2023

Nutch crawl без ошибок, но и результат никакой
Я пытаюсь просканировать некоторые URL-адреса с помощью nutch 2.1 следующим образом. bin/nutch crawl urls -dir crawl -depth 3 -topN 5 http://wiki.apache.org/nutch/NutchTutorial Ошибки нет, но не создаются указанные ниже папки....
2441 просмотров
schedule 18.02.2023

Регулярное выражение Nutch не сканирует так, как я хочу
Хорошо, я уже спрашивал об этом, но, думаю, я не спрашивал об этом так, как ожидает stackoverflow. Надеюсь, на этот раз мне повезет больше и я получу ответ. Я пытаюсь запустить nutch для сканирования этого сайта: http://www.tigerdirect.com/ Я...
1473 просмотров
schedule 10.03.2022