Подключите R к Spark через sparklyr


person user1514373    schedule 20.07.2016    source источник
comment
Я использовал R и Spark всего несколько раз, поэтому я не уверен, как решить вашу проблему, но я настоятельно рекомендую подписаться на выпуск сообщества Databricks, который избавит вас от многих головных болей, необходимых при запуске spark в Windows. У них также есть ноутбуки R, которые довольно сообразительны. databricks.com/try-databricks   -  person Saif Charaniya    schedule 21.07.2016


Ответы (4)


Недавно у меня была такая же проблема. Эта ошибка обсуждалась на sparklyr-страницах RStudio GitHub.

Не могли бы вы предоставить свои sessionInfo() результаты? Его вывод проливает свет на версии пакетов и используемые ОС.

2 основных момента, которые мне помогли:

  • Установите Spark с помощью spark_install()
  • Установить разраб. издание sparklyr с использованием devtools::install_github("rstudio/sparklyr")

Проверьте версию пакета sparklyr. В моем случае проблема исчезла только после обновления до версии sparklyr_0.4.11.

person Alex Skorokhod    schedule 06.10.2016

Установите последнюю версию sparklyr из репозитория github.

Инструкции по установке sparklyr, если на вашем сервере нет Интернета.

  • Установите пакеты R, devtools и git2r
  • Загрузите основной zip-файл с git
  • Разархивируйте его по пути Windows
  • Создайте источник: source ‹- devtools:::source_pkg("путь Windows/имя главного каталога")
  • установить (источник)
person DSBLR    schedule 03.11.2016

Сначала вам нужно убедиться, что у вас установлена ​​самая последняя версия RStudio, если вы ее используете (загрузите и установите после закрытия RStudio отсюда): https://www.rstudio.com/products/rstudio/download/preview/

    library(DBI)
    library(lazyeval)
    library(dplyr)
    library(devtools)
    # install_github("rstudio/sparkapi")
    library(sparkapi)
    # install_github("rstudio/sparklyr")
    library(sparklyr)
    library(yaml)
    library(nycflights13)

    # Note: Only perform Spark once
    spark_install(version = "1.6.1")

    # Connect to Spark through connection
    sc <- spark_connect(master = "local")
    iris_tbl <- copy_to(sc, iris, "iris", overwrite = TRUE)
    flights_tbl <- copy_to(sc, nycflights13::flights, "flights", overwrite = TRUE)
    class(flights_tbl)


 flights_preview <- DBI::dbGetQuery(sc, "SELECT * FROM flights LIMIT 10")
    flights_preview

Выведет это в Windows 10:

# year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay carrier flight tailnum origin
# 1  2013     1   1      517            515         2      830            819        11      UA   1545  N14228    EWR
# 2  2013     1   1      533            529         4      850            830        20      UA   1714  N24211    LGA
# 3  2013     1   1      542            540         2      923            850        33      AA   1141  N619AA    JFK
# 4  2013     1   1      544            545        -1     1004           1022       -18      B6    725  N804JB    JFK
# 5  2013     1   1      554            600        -6      812            837       -25      DL    461  N668DN    LGA
# 6  2013     1   1      554            558        -4      740            728        12      UA   1696  N39463    EWR
# 7  2013     1   1      555            600        -5      913            854        19      B6    507  N516JB    EWR
# 8  2013     1   1      557            600        -3      709            723       -14      EV   5708  N829AS    LGA
# 9  2013     1   1      557            600        -3      838            846        -8      B6     79  N593JB    JFK
# 10 2013     1   1      558            600        -2      753            745         8      AA    301  N3ALAA    LGA
person Bob Hopez    schedule 21.07.2016

На основе https://github.com/rstudio/sparklyr/issues/114, у меня сработало следующее:

sc <- spark_connect(master = "local", config = list())
person M. Mashaye    schedule 08.12.2016