Хорошо, я уже спрашивал об этом, но, думаю, я не спрашивал об этом так, как ожидает stackoverflow. Надеюсь, на этот раз мне повезет больше и я получу ответ.
Я пытаюсь запустить nutch для сканирования этого сайта: http://www.tigerdirect.com/
Я хочу, чтобы он сканировал этот сайт и все подссылки.
Проблема в том, что он не работает. В моем файле reg-ex я пробовал пару вещей, но ни одна из них не сработала:
+^http://([a-z0-9]*\.)*tigerdirect.com/
+^http://tigerdirect.com/([a-z0-9]*\.)*
мой urls.txt:
http://tigerdirect.com
По сути, я пытаюсь выполнить сканирование всех страниц продуктов на их веб-сайте, чтобы я мог создать поисковую систему (я использую solr) для электронных продуктов. В конце концов я хочу просканировать bestbuy.com, newegg.com и другие сайты.
Кстати, я следовал руководству отсюда: http://wiki.apache.org/nutch/NutchTutorial и я использую сценарий, упомянутый в сеансе 3.3 (после исправления ошибки).
У меня есть опыт работы с Java, Android и Bash, поэтому для меня это немного ново. Я использовал регулярное выражение в perl 5 лет назад, но все это забыто.
Спасибо!