Вопросы по теме 'sparklyr'
Подключите R к Spark через sparklyr
Я пытаюсь подключить R к Spark, следуя руководству sparklyr от RStudio: http://spark.rstudio.com/
Но каким-то образом я получаю странное сообщение об ошибке, как показано ниже. Кто-нибудь знает, как это решить? Я безуспешно пытался добавить...
2543 просмотров
schedule
20.03.2023
Изменение типа данных столбца на фактор с помощью sparklyr
Я новичок в Spark и в настоящее время использую его с помощью R API через пакет sparkly. Я создал фрейм данных Spark из запроса улья. Типы данных указаны неправильно в исходной таблице, и я пытаюсь сбросить тип данных, используя функции из пакета...
4920 просмотров
schedule
18.08.2022
фрейм данных Sparklyr Pivot
В настоящее время sparklyr (0.5.1) не имеет pivot реализации для Spark.
Итак, мне интересно, как я могу реализовать это с помощью invoke функций.
Пока я здесь.
iris_tbl <- copy_to(sc, iris)
spark_dataframe(iris_tbl) %>%...
675 просмотров
schedule
28.10.2022
RStudio/Sparklyr на MAPR/Spark — заменить , на . в строке
У меня есть кадр данных Spark tbl_pred со следующим столбцом факторов:
**Value**
13,3
11
5,3
Мне нравится преобразовывать эти «строки» в числовые значения. Я могу использовать функцию as.numeric, но это не работает, потому что мой...
955 просмотров
schedule
10.04.2023
Sparklyr встроил нуль в строку при сборе
В R у меня есть искровое соединение и DataFrame как ddf .
library(sparklyr)
library(tidyverse)
sc <- spark_connect(master = "foo", version = "2.0.2")
ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")...
587 просмотров
schedule
29.07.2022
Ошибка копирования Sparklyr
Я использую библиотеку Sparklyr для чтения и записи данных из R в HDFS. Чтение данных работает, как и ожидалось, но запись вызывает проблемы.
Чтобы иметь возможность использовать функцию spark_write_csv, мне нужно преобразовать мои R data.frames в...
702 просмотров
schedule
18.03.2023
Указание типа столбца в Sparklyr (spark_read_csv)
Я читаю csv в искру с помощью SpraklyR
schema <- structType(structField("TransTime", "array<timestamp>", TRUE),
structField("TransDay", "Date", TRUE))
spark_read_csv(sc, filename, "path", infer_schema = FALSE, schema =...
2378 просмотров
schedule
20.03.2022
Можно ли выполнить полное соединение в dplyr и сохранить все столбцы, используемые в соединении?
У меня есть две таблицы, для которых я хочу выполнить полное соединение с помощью dplyr, но я не хочу, чтобы он удалял какие-либо столбцы. Согласно документации и моему собственному опыту, он сохраняет только столбец соединения для левой стороны....
8171 просмотров
schedule
09.01.2023
Используйте Sparklyr для объединения таблиц из двух разных баз данных.
Это мой текущий способ после вызова сеанса Sparklyr:
dbGetQuery(sparkContext, "USE DB_1")
df_1 <- tbl(sparkContext, "table_1")
dbGetQuery(sparkContext, "USE DB_2")
df_2 <- tbl(sparkContext, "table_2")
df <- df_1 %>%...
1315 просмотров
schedule
28.10.2022
Sparklyr: используйте group_by, а затем объединяйте строки из строк в группу.
Я пытаюсь использовать функции group_by() и mutate() в sparklyr для объединения строк в группу.
Вот простой пример, который, я думаю, должен работать, но не работает:
library(sparkylr)
d <- data.frame(id=c("1", "1", "2", "2", "1", "2"),...
2154 просмотров
schedule
13.07.2022
можно ли подключиться к mongodb из SparklyR
я могу подключиться к MongoDB из SparkR (я использую R Studio, Spark 2.x.x, коннектор Mongo v2.0), как описано здесь https://docs.mongodb.com/spark-connector/current/r-api/ . Я хотел бы сделать то же самое, используя SparklyR, возможно ли это?...
450 просмотров
schedule
12.07.2023
Как настроить память драйвера при запуске Spark в локальном режиме через Sparklyr?
Я использую Sparklyr для запуска приложения Spark в локальном режиме на виртуальной машине с 244 ГБ ОЗУ. В моем коде я использую spark_read_csv() для чтения ~ 50 МБ CSV-файлов из одной папки, а затем ~ 1,5 ГБ CSV-файлов из второй папки. Моя...
4328 просмотров
schedule
14.05.2023
Sparklyr - Как изменить типы данных паркета
Есть ли способ изменить типы данных столбцов при чтении паркетных файлов? Я использую функцию spark_read_parquet из Sparklyr, но у нее нет опции columns (из spark_read_csv ) для ее изменения.
В файлах csv я бы сделал что-то вроде:...
862 просмотров
schedule
12.04.2023
Sparklyr - изменение формата даты в Spark
У меня есть фреймворк Spark со столбцом characters как 20/01/2000 (день / месяц / год).
Но я пытаюсь изменить его формат на дату, поэтому я смогу использовать здесь функции:...
3038 просмотров
schedule
20.11.2022
Sparklyr — изменить имена столбцов в кадре данных Spark
df <- data.frame(old1 = LETTERS, old2 = 1)
df_tbl <- copy_to(sc,df,"df")
df_tbl <- df_tbl %>% dplyr::rename(old1 = new1, old2 = new2)
возвращает:
> head(df_tbl)
Error: `new1`, `new2` contains unknown variables
Есть ли...
2718 просмотров
schedule
02.04.2024
Как отфильтровать частичное совпадение с помощью sparklyr
Я новичок в Sparklyr (но знаком с Spark и Pyspark), и у меня есть действительно простой вопрос. Я пытаюсь отфильтровать столбец на основе частичного совпадения. В dplyr я бы написал свою операцию так:
businesses %>%
filter(grepl('test',...
4002 просмотров
schedule
31.03.2022
Функция Sparklyr spark_apply, похоже, работает на одном исполнителе и дает сбой на умеренно большом наборе данных.
Я пытаюсь использовать spark_apply для запуска функции R ниже в таблице Spark. Это отлично работает, если моя входная таблица небольшая (например, 5000 строк), но через ~ 30 минут выдает ошибку, когда таблица умеренно большая (например, 5 000 000...
1391 просмотров
schedule
21.08.2022
Использование spark_apply в sparklyr для добавления взвешенных случайных векторов нормалей к нескольким столбцам DF
Я новичок в sparklyr и пытаюсь добавить случайные векторы нормалей, взвешенные другим вектором, к большому количеству столбцов spark df. Это пример, который я пробовал с mtcars.
library(sparklyr)
library(dplyr)
sc1 <- spark_connect(master =...
463 просмотров
schedule
14.01.2023
Преобразование фрейма данных spark в таблицу sparklyR tbl_spark
Я пытаюсь преобразовать фрейм данных spark org.apache.spark.sql.DataFrame в таблицу sparklyr tbl_spark . Я пытался с sdf_register , но не получилось со следующей ошибкой.
Здесь df — это искровой фрейм данных.
sdf_register(df, name =...
3630 просмотров
schedule
28.11.2022
функции на основе sparklyr и стандартной оценки (SE)
Я пытаюсь написать функцию, которая выполняет и sdf_pivot() создает Spark DataFrame с именами столбцов, которые включают имя исходной переменной или столбца.
set.seed(80)
df <- data.frame(id = c(1:5),
var1 =...
150 просмотров
schedule
13.11.2022