Попытка очистить таблицу данных с веб-сайта. Данные генерируются кодом javascript

Я пытаюсь использовать R для загрузки таблицы данных, найденной на веб-сайте https://sites.google.com/a/slu.edu/swartwout/home/cubesat-database. Я не нашел подход, который сделал бы это. Я могу получить доступ к данным, только если скопирую и вставлю их в Excel. Это попытка, которая не работает:

    url <- read_html("https://sites.google.com/a/slu.edu/swartwout/home/cubesat-database")
    table <- url %>%
      + html_nodes(xpath='/html/body/script[2]/text()') %>%
      + html_table(header = TRUE, fill=TRUE)

Я пробовал несколько html_nodes, и ни один из них не работает. Возможно, я делаю это неправильно, или мне может понадобиться другой подход. Данные, похоже, генерируются javascript. Данные, показанные в таблице, вообще не видны в html-коде, хотя и видны при просмотре веб-сайта. Selectorgadget Хэдли Уикхэма работает очень хорошо, когда применяется к странице imdb для The Lego Movie, но не на этом веб-сайте.

Пока я пишу это, StackOverflow предложил аналогичный вопрос: -r">не знаю, как собрать данные с этого сайта (используя R). Это предполагает использование RSelenium. Я следовал этому подходу без успеха. Я получаю ряд ошибок, в том числе «Ошибка загрузки пакета или пространства имен для ‘RSelenium’».


person Paul M    schedule 27.09.2015    source источник
comment
Если таблица генерируется «на лету», то есть с помощью JavaScript и XHTML-запроса для файла JSON или чего-то еще, почему бы не взять файл JSON и не манипулировать им вместо того, чтобы пытаться очистить страницу?   -  person royhowie    schedule 28.09.2015
comment
Код, который генерирует таблицу, очень сложен, и я все еще пытаюсь его понять. Теперь похоже, что некоторые части таблицы пронумерованы, а некоторые сгенерированы JavaScript. Потребовалось бы много времени, чтобы понять, что есть что. Мне еще предстоит обнаружить источник данных, которые обрабатываются. Я также никогда не программировал на JavaScript. Кроме этого, это замечательная идея. Я продолжаю думать, что если я вижу данные, отображаемые на экране, должен быть способ их зафиксировать. Как скопировать и вставить. Может, я продолжаю так делать?   -  person Paul M    schedule 28.09.2015
comment
Я продолжил свои поиски и сделал открытие. Выполните поиск в StackOverflow. Попробуйте ввести условия поиска: очистить веб-сайт Python. Я думаю, это подскажет вам, где находится решение. На самом деле у О'Рейли есть книга на эту тему, написанная Райаном Митчеллом. Теперь я изучил Python не больше, чем я изучил JavaScript, но если это решения, то это хорошие пути для следования. Если лучше R, то так тому и быть.   -  person Paul M    schedule 29.09.2015