Селеновый скребок с R

Например, я хочу очистить данные с этой веб-страницы (Пространство, Удобства, Цены ... и отзывы https://www.airbnb.com/rooms/9985824?gests=1&s=d2dNfFMd

Я хочу использовать для этого пакет rselenium. Это мой код:

url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd"
library('RSelenium')
pJS <- phantom()
library('XML')
shell.exec(paste0("C:\\Users\\Daniil\\Desktop\\R-language,Python\\file.bat"))
Sys.sleep(10)

checkForServer()
startServer()
remDr <- remoteDriver(browserName="chrome", port=4444)
remDr$open(silent=T)

а затем с помощью SelectorGadget я нашел, как мне кажется, нужные элементы для парсинга:

var <- remDr$findElements('css selector','#details hr+ .row')

У меня вопрос: как я могу внести это в текст (символьные строки)? Или, может быть, существует другой подход с rselenium для сбора данных.

Большое спасибо


person YNWA1992    schedule 01.06.2016    source источник


Ответы (1)


Я не уверен, что находится в file.bat, но, похоже, вы в первую очередь заинтересованы в сборе данных об удобствах этого объявления. Я просто использовал firefox и пропустил части вашего кода phantomjs:

url <- "https://www.airbnb.com/rooms/9985824?guests=1&s=d2dNfFMd"

library('RSelenium')

checkForServer()
startServer()
remDr <- remoteDriver(browserName="firefox", port=4444)
remDr$open(silent=T)
remDr$navigate(url)

var <- remDr$findElement('css selector','#details hr+ .row')

print(var$getElementText())
[[1]]
[1] "The Space\nAccommodates: 2\nBathrooms: 1.5\nBed type: Real Bed\nBedrooms: 1\nBeds: 1\nProperty type: Apartment\nRoom type: Private room\nHouse Rules"

Отсюда вы можете проанализировать строку или выполнить дополнительный сбор данных.

person Stedy    schedule 09.07.2016