Многостраничная таблица синтаксического анализатора HTML в Java


person Shann    schedule 17.04.2014    source источник
comment
Я не знаю, может ли это помочь... Но попробуйте прочитать этот ответ: ‹stackoverflow.com/questions/21377942/  -  person ivoruJavaBoy    schedule 17.04.2014


Ответы (1)


JSoup — это парсер HTML, но при просмотре веб-сайта для загрузки таблицы используется javascript. Так что вам нужно будет нажать на него.

Вы можете использовать HTMLUnit или Selenium для навигации и JSoup для анализа HTML.

Я надеюсь, что это помогает.

Редактировать:

Выглядит лучше в коде страницы. Я думаю, что это может быть полезно:

http://www.fifa.com/worldranking/rankingtable/gender=m/rank=100/confederation=0/page=0/_ranking_table.html

Я меняю значения URL-адреса, смотрю, что ранг u может увеличиться (это дата ранжирования), и важным из них будет страница. Вы можете загрузить весь рейтинг, увеличив параметр страницы. Тогда будет достаточно просто разобрать его с помощью JSoup.

Например, последний рейтинг будет таким: http://www.fifa.com/worldranking/rankingtable/gender=m/rank=237/confederation=0/page=1/_ranking_table.html

Затем вы можете увеличить параметр page=2, затем 3, ... до 7

Ваше здоровье.

person Javier Salinas    schedule 17.04.2014