Вопросы по теме 'sparklyr'

Подключите R к Spark через sparklyr
Я пытаюсь подключить R к Spark, следуя руководству sparklyr от RStudio: http://spark.rstudio.com/ Но каким-то образом я получаю странное сообщение об ошибке, как показано ниже. Кто-нибудь знает, как это решить? Я безуспешно пытался добавить...
2543 просмотров
schedule 20.03.2023

Изменение типа данных столбца на фактор с помощью sparklyr
Я новичок в Spark и в настоящее время использую его с помощью R API через пакет sparkly. Я создал фрейм данных Spark из запроса улья. Типы данных указаны неправильно в исходной таблице, и я пытаюсь сбросить тип данных, используя функции из пакета...
4920 просмотров

фрейм данных Sparklyr Pivot
В настоящее время sparklyr (0.5.1) не имеет pivot реализации для Spark. Итак, мне интересно, как я могу реализовать это с помощью invoke функций. Пока я здесь. iris_tbl <- copy_to(sc, iris) spark_dataframe(iris_tbl) %>%...
675 просмотров
schedule 28.10.2022

RStudio/Sparklyr на MAPR/Spark — заменить , на . в строке
У меня есть кадр данных Spark tbl_pred со следующим столбцом факторов: **Value** 13,3 11 5,3 Мне нравится преобразовывать эти «строки» в числовые значения. Я могу использовать функцию as.numeric, но это не работает, потому что мой...
955 просмотров
schedule 10.04.2023

Sparklyr встроил нуль в строку при сборе
В R у меня есть искровое соединение и DataFrame как ddf . library(sparklyr) library(tidyverse) sc <- spark_connect(master = "foo", version = "2.0.2") ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")...
587 просмотров
schedule 29.07.2022

Ошибка копирования Sparklyr
Я использую библиотеку Sparklyr для чтения и записи данных из R в HDFS. Чтение данных работает, как и ожидалось, но запись вызывает проблемы. Чтобы иметь возможность использовать функцию spark_write_csv, мне нужно преобразовать мои R data.frames в...
702 просмотров
schedule 18.03.2023

Указание типа столбца в Sparklyr (spark_read_csv)
Я читаю csv в искру с помощью SpraklyR schema <- structType(structField("TransTime", "array<timestamp>", TRUE), structField("TransDay", "Date", TRUE)) spark_read_csv(sc, filename, "path", infer_schema = FALSE, schema =...
2378 просмотров
schedule 20.03.2022

Можно ли выполнить полное соединение в dplyr и сохранить все столбцы, используемые в соединении?
У меня есть две таблицы, для которых я хочу выполнить полное соединение с помощью dplyr, но я не хочу, чтобы он удалял какие-либо столбцы. Согласно документации и моему собственному опыту, он сохраняет только столбец соединения для левой стороны....
8171 просмотров
schedule 09.01.2023

Используйте Sparklyr для объединения таблиц из двух разных баз данных.
Это мой текущий способ после вызова сеанса Sparklyr: dbGetQuery(sparkContext, "USE DB_1") df_1 <- tbl(sparkContext, "table_1") dbGetQuery(sparkContext, "USE DB_2") df_2 <- tbl(sparkContext, "table_2") df <- df_1 %>%...
1315 просмотров
schedule 28.10.2022

Sparklyr: используйте group_by, а затем объединяйте строки из строк в группу.
Я пытаюсь использовать функции group_by() и mutate() в sparklyr для объединения строк в группу. Вот простой пример, который, я думаю, должен работать, но не работает: library(sparkylr) d <- data.frame(id=c("1", "1", "2", "2", "1", "2"),...
2154 просмотров
schedule 13.07.2022

можно ли подключиться к mongodb из SparklyR
я могу подключиться к MongoDB из SparkR (я использую R Studio, Spark 2.x.x, коннектор Mongo v2.0), как описано здесь https://docs.mongodb.com/spark-connector/current/r-api/ . Я хотел бы сделать то же самое, используя SparklyR, возможно ли это?...
450 просмотров
schedule 12.07.2023

Как настроить память драйвера при запуске Spark в локальном режиме через Sparklyr?
Я использую Sparklyr для запуска приложения Spark в локальном режиме на виртуальной машине с 244 ГБ ОЗУ. В моем коде я использую spark_read_csv() для чтения ~ 50 МБ CSV-файлов из одной папки, а затем ~ 1,5 ГБ CSV-файлов из второй папки. Моя...
4328 просмотров
schedule 14.05.2023

Sparklyr - Как изменить типы данных паркета
Есть ли способ изменить типы данных столбцов при чтении паркетных файлов? Я использую функцию spark_read_parquet из Sparklyr, но у нее нет опции columns (из spark_read_csv ) для ее изменения. В файлах csv я бы сделал что-то вроде:...
862 просмотров
schedule 12.04.2023

Sparklyr - изменение формата даты в Spark
У меня есть фреймворк Spark со столбцом characters как 20/01/2000 (день / месяц / год). Но я пытаюсь изменить его формат на дату, поэтому я смогу использовать здесь функции:...
3038 просмотров
schedule 20.11.2022

Sparklyr — изменить имена столбцов в кадре данных Spark
df <- data.frame(old1 = LETTERS, old2 = 1) df_tbl <- copy_to(sc,df,"df") df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2) возвращает: > head(df_tbl) Error: `new1`, `new2` contains unknown variables Есть ли...
2718 просмотров
schedule 02.04.2024

Как отфильтровать частичное совпадение с помощью sparklyr
Я новичок в Sparklyr (но знаком с Spark и Pyspark), и у меня есть действительно простой вопрос. Я пытаюсь отфильтровать столбец на основе частичного совпадения. В dplyr я бы написал свою операцию так: businesses %>% filter(grepl('test',...
4002 просмотров
schedule 31.03.2022

Функция Sparklyr spark_apply, похоже, работает на одном исполнителе и дает сбой на умеренно большом наборе данных.
Я пытаюсь использовать spark_apply для запуска функции R ниже в таблице Spark. Это отлично работает, если моя входная таблица небольшая (например, 5000 строк), но через ~ 30 минут выдает ошибку, когда таблица умеренно большая (например, 5 000 000...
1391 просмотров
schedule 21.08.2022

Использование spark_apply в sparklyr для добавления взвешенных случайных векторов нормалей к нескольким столбцам DF
Я новичок в sparklyr и пытаюсь добавить случайные векторы нормалей, взвешенные другим вектором, к большому количеству столбцов spark df. Это пример, который я пробовал с mtcars. library(sparklyr) library(dplyr) sc1 <- spark_connect(master =...
463 просмотров
schedule 14.01.2023

Преобразование фрейма данных spark в таблицу sparklyR tbl_spark
Я пытаюсь преобразовать фрейм данных spark org.apache.spark.sql.DataFrame в таблицу sparklyr tbl_spark . Я пытался с sdf_register , но не получилось со следующей ошибкой. Здесь df — это искровой фрейм данных. sdf_register(df, name =...
3630 просмотров
schedule 28.11.2022

функции на основе sparklyr и стандартной оценки (SE)
Я пытаюсь написать функцию, которая выполняет и sdf_pivot() создает Spark DataFrame с именами столбцов, которые включают имя исходной переменной или столбца. set.seed(80) df <- data.frame(id = c(1:5), var1 =...
150 просмотров