Статьи по тематике sparklyr [r, apache-spark, sparklyr, apache-spark-sql, dplyr]

Вопросы по теме 'sparklyr'

Я пытаюсь подключить R к Spark, следуя руководству sparklyr от RStudio: http://spark.rstudio.com/ Но каким-то образом я получаю странное сообщение об ошибке, как показано ниже. Кто-нибудь знает, как это решить? Я безуспешно пытался добавить...

2543 просмотров

r apache-spark sparklyr

20.03.2023

Изменение типа данных столбца на фактор с помощью sparklyr

Я новичок в Spark и в настоящее время использую его с помощью R API через пакет sparkly. Я создал фрейм данных Spark из запроса улья. Типы данных указаны неправильно в исходной таблице, и я пытаюсь сбросить тип данных, используя функции из пакета...

4920 просмотров

r apache-spark apache-spark-sql sparklyr dplyr

18.08.2022

фрейм данных Sparklyr Pivot

В настоящее время sparklyr (0.5.1) не имеет pivot реализации для Spark. Итак, мне интересно, как я могу реализовать это с помощью invoke функций. Пока я здесь. iris_tbl <- copy_to(sc, iris) spark_dataframe(iris_tbl) %>%...

675 просмотров

r apache-spark sparklyr pivot

28.10.2022

RStudio/Sparklyr на MAPR/Spark — заменить , на . в строке

У меня есть кадр данных Spark tbl_pred со следующим столбцом факторов: **Value** 13,3 11 5,3 Мне нравится преобразовывать эти «строки» в числовые значения. Я могу использовать функцию as.numeric, но это не работает, потому что мой...

955 просмотров

r apache-spark sparklyr

10.04.2023

Sparklyr встроил нуль в строку при сборе

В R у меня есть искровое соединение и DataFrame как ddf . library(sparklyr) library(tidyverse) sc <- spark_connect(master = "foo", version = "2.0.2") ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")...

587 просмотров

r apache-spark sparklyr dplyr

29.07.2022

Ошибка копирования Sparklyr

Я использую библиотеку Sparklyr для чтения и записи данных из R в HDFS. Чтение данных работает, как и ожидалось, но запись вызывает проблемы. Чтобы иметь возможность использовать функцию spark_write_csv, мне нужно преобразовать мои R data.frames в...

702 просмотров

r apache-spark hadoop sparklyr

18.03.2023

Указание типа столбца в Sparklyr (spark_read_csv)

Я читаю csv в искру с помощью SpraklyR schema <- structType(structField("TransTime", "array<timestamp>", TRUE), structField("TransDay", "Date", TRUE)) spark_read_csv(sc, filename, "path", infer_schema = FALSE, schema =...

2378 просмотров

r sparklyr

20.03.2022

Можно ли выполнить полное соединение в dplyr и сохранить все столбцы, используемые в соединении?

У меня есть две таблицы, для которых я хочу выполнить полное соединение с помощью dplyr, но я не хочу, чтобы он удалял какие-либо столбцы. Согласно документации и моему собственному опыту, он сохраняет только столбец соединения для левой стороны....

8171 просмотров

r sparklyr dplyr

09.01.2023

Используйте Sparklyr для объединения таблиц из двух разных баз данных.

Это мой текущий способ после вызова сеанса Sparklyr: dbGetQuery(sparkContext, "USE DB_1") df_1 <- tbl(sparkContext, "table_1") dbGetQuery(sparkContext, "USE DB_2") df_2 <- tbl(sparkContext, "table_2") df <- df_1 %>%...

1315 просмотров

r sparklyr

28.10.2022

Sparklyr: используйте group_by, а затем объединяйте строки из строк в группу.

Я пытаюсь использовать функции group_by() и mutate() в sparklyr для объединения строк в группу. Вот простой пример, который, я думаю, должен работать, но не работает: library(sparkylr) d <- data.frame(id=c("1", "1", "2", "2", "1", "2"),...

2154 просмотров

r sparklyr data-science

13.07.2022

можно ли подключиться к mongodb из SparklyR

я могу подключиться к MongoDB из SparkR (я использую R Studio, Spark 2.x.x, коннектор Mongo v2.0), как описано здесь https://docs.mongodb.com/spark-connector/current/r-api/ . Я хотел бы сделать то же самое, используя SparklyR, возможно ли это?...

450 просмотров

mongodb sparklyr

12.07.2023

Как настроить память драйвера при запуске Spark в локальном режиме через Sparklyr?

Я использую Sparklyr для запуска приложения Spark в локальном режиме на виртуальной машине с 244 ГБ ОЗУ. В моем коде я использую spark_read_csv() для чтения ~ 50 МБ CSV-файлов из одной папки, а затем ~ 1,5 ГБ CSV-файлов из второй папки. Моя...

4328 просмотров

r java apache-spark sparklyr

14.05.2023

Sparklyr - Как изменить типы данных паркета

Есть ли способ изменить типы данных столбцов при чтении паркетных файлов? Я использую функцию spark_read_parquet из Sparklyr, но у нее нет опции columns (из spark_read_csv ) для ее изменения. В файлах csv я бы сделал что-то вроде:...

862 просмотров

r parquet apache-spark sparklyr

12.04.2023

Sparklyr - изменение формата даты в Spark

У меня есть фреймворк Spark со столбцом characters как 20/01/2000 (день / месяц / год). Но я пытаюсь изменить его формат на дату, поэтому я смогу использовать здесь функции:...

3038 просмотров

r date apache-spark sparklyr

20.11.2022

Sparklyr — изменить имена столбцов в кадре данных Spark

df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2) возвращает: > head(df_tbl) Error: `new1`, `new2` contains unknown variables Есть ли...

2718 просмотров

r apache-spark sparklyr rename

02.04.2024

Как отфильтровать частичное совпадение с помощью sparklyr

Я новичок в Sparklyr (но знаком с Spark и Pyspark), и у меня есть действительно простой вопрос. Я пытаюсь отфильтровать столбец на основе частичного совпадения. В dplyr я бы написал свою операцию так: businesses %>% filter(grepl('test',...

4002 просмотров

r apache-spark sparklyr dplyr

31.03.2022

Функция Sparklyr spark_apply, похоже, работает на одном исполнителе и дает сбой на умеренно большом наборе данных.

Я пытаюсь использовать spark_apply для запуска функции R ниже в таблице Spark. Это отлично работает, если моя входная таблица небольшая (например, 5000 строк), но через ~ 30 минут выдает ошибку, когда таблица умеренно большая (например, 5 000 000...

1391 просмотров

r apache-spark sparklyr

21.08.2022

Использование spark_apply в sparklyr для добавления взвешенных случайных векторов нормалей к нескольким столбцам DF

Я новичок в sparklyr и пытаюсь добавить случайные векторы нормалей, взвешенные другим вектором, к большому количеству столбцов spark df. Это пример, который я пробовал с mtcars. library(sparklyr) library(dplyr) sc1 <- spark_connect(master =...

463 просмотров

r apache-spark apache-spark-sql sparklyr

14.01.2023

Преобразование фрейма данных spark в таблицу sparklyR tbl_spark

Я пытаюсь преобразовать фрейм данных spark org.apache.spark.sql.DataFrame в таблицу sparklyr tbl_spark . Я пытался с sdf_register , но не получилось со следующей ошибкой. Здесь df — это искровой фрейм данных. sdf_register(df, name =...

3630 просмотров

r apache-spark sparklyr

28.11.2022

функции на основе sparklyr и стандартной оценки (SE)

Я пытаюсь написать функцию, которая выполняет и sdf_pivot() создает Spark DataFrame с именами столбцов, которые включают имя исходной переменной или столбца. set.seed(80) df <- data.frame(id = c(1:5), var1 =...

150 просмотров

apache-spark sparklyr dplyr non-standard-evaluation standard-evaluation

13.11.2022

Вопросы по теме 'sparklyr'

Похожие вопросы