Статьи по тематике apache-spark-dataset

Вопросы по теме 'apache-spark-dataset'

DataFrame/группа наборов данныхПо поведению/оптимизации

Предположим, у нас есть DataFrame df , состоящий из следующих столбцов: Имя, Фамилия, Размер, Ширина, Длина, Вес Теперь мы хотим выполнить пару операций, например, мы хотим создать пару фреймов данных, содержащих данные о размере и...

18585 просмотров

29.05.2022

Spark Dataset API - присоединиться

Я пытаюсь использовать Dataset API Spark, но я у меня возникли проблемы с простым соединением. Допустим, у меня есть два набора данных с полями: date | value , тогда в случае DataFrame мое соединение будет выглядеть так: val dfA :...

31477 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

15.04.2022

как использовать группу в наборе данных spark

Я использую набор данных Spark (версия Spark 1.6.1). Ниже мой код object App { val conf = new SparkConf() .setMaster("local") .setAppName("SparkETL") val sc = new SparkContext(conf) sc.setLogLevel("ERROR") val sqlContext = new SQLContext(sc);...

3177 просмотров

apache-spark dataset apache-spark-dataset

14.07.2023

Агрегатор SparkSQL: ошибка несоответствия типов

Я использую Databricks Community Edition с предварительной версией Spark 2.0. Я пробовал следующий (простой) код: import org.apache.spark.sql.expressions.Aggregator import org.apache.spark.sql.Encoder import java.util.Calendar import...

731 просмотров

apache-spark apache-spark-sql apache-spark-dataset

10.04.2023

Набор данных Spark: пример: невозможно создать проблему с кодировщиком

Новичок в мире искр и попытка примера набора данных, написанного на scala, который я нашел в Интернете. При запуске через SBT я продолжаю получать следующую ошибку org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner...

5378 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset apache-spark-encoders

03.12.2022

Замена Apache Spark RDD

Я пытаюсь решить проблему, так что у меня есть такой набор данных: (1, 3) (1, 4) (1, 7) (1, 2) <- (2, 7) <- (6, 6) (3, 7) <- (7, 4) <- ... Так как (1 -> 2) и (2 -> 7) хотелось бы заменить набор (2, 7) на...

141 просмотров

apache-spark scala rdd apache-spark-dataset spark-dataframe

30.01.2023

Как распараллелить / распределить запросы / счетчики в Spark DataFrame?

У меня есть DataFrame , к которому я должен применить серию фильтровальных запросов. Например, я загружаю свой DataFrame следующим образом. val df = spark.read.parquet("hdfs://box/some-parquet") Затем у меня есть куча "произвольных"...

2659 просмотров

apache-spark apache-spark-sql rdd apache-spark-dataset spark-dataframe

24.06.2023

groupByKey в наборе данных Spark

Пожалуйста, помогите мне понять параметр, который мы передаем в groupByKey, когда он используется в наборе данных. scala> val data = spark.read.text("Sample.txt").as[String] data: org.apache.spark.sql.Dataset[String] = [value: string]...

23295 просмотров

apache-spark apache-spark-dataset

27.04.2022

Агрегация набора данных Spark аналогична агрегации RDD (ноль) (накопление, объединитель)

RDD имеет очень полезный агрегатный метод, который позволяет накапливать с некоторым нулевым значением и объединять его между разделами. Есть ли способ сделать это с помощью Dataset[T] . Насколько я вижу спецификацию через Scala doc, на самом...

1433 просмотров

apache-spark apache-spark-sql scala rdd apache-spark-dataset

15.05.2023

Как преобразовать JavaPairRDD в набор данных?

SparkSession.createDataset() позволяет только List, RDD, or Seq , но не поддерживает JavaPairRDD . Итак, если у меня есть JavaPairRDD<String, User> , из которого я хочу создать Dataset , будет ли жизнеспособным обходным путем для...

4694 просмотров

java apache-spark rdd apache-spark-dataset

26.11.2022

Как прочитать несколько файлов Excel и объединить их в один фрейм данных Apache Spark?

Недавно я хотел провести лабораторию машинного обучения Spark на Spark Summit 2016. Обучающее видео можно найти здесь экспортированная записная книжка доступна здесь . Набор данных, используемый в лабораторной работе, можно загрузить из...

7520 просмотров

apache-spark excel scala apache-spark-dataset spark-excel

20.05.2023

Как случайным образом выбрать строки из одного фрейма данных, используя информацию из другого фрейма данных

Следующее я пытаюсь сделать в Scala-Spark. Я надеюсь, что кто-то может дать мне совет о том, как решить эту проблему, или предоставит мне ресурсы, чтобы выяснить, что я могу сделать. У меня есть dateCountDF со счетом, соответствующим дате. Я...

838 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

27.07.2022

Поиск и замена в Apache Spark

Мы создали два набора данных, предложениеDataFrame, предложениеDataFrame2, где должна произойти замена поиска. предложениеDataFrame2 хранит условия поиска и замены. Мы также выполнили все 11 типов соединений: «внутреннее», «внешнее», «полное»,...

615 просмотров

apache-spark apache-spark-sql join apache-spark-dataset apache-spark-2.0

09.02.2023

Обновите набор данных в spark-shell, разбив один элемент на несколько частей и вставив строку для каждой части.

У меня есть вариант использования, когда я храню свои данные в наборе данных. У меня есть столбец, в котором я могу иметь несколько значений в строке, разделенных трубой (|). Итак, типичный ряд выглядит так: 2016/01/01 1/XYZ PQR M|N|O Я...

137 просмотров

apache-spark amazon-emr scala apache-spark-dataset spark-dataframe

15.02.2023

Dataset.unpersist() неожиданно влияет на количество других RDD

Я столкнулся со странной проблемой, когда вызов unpersist() для одного набора данных влияет на количество другого набора данных в том же блоке кода. К сожалению, это происходит во время сложной длительной работы со многими наборами данных, поэтому...

645 просмотров

apache-spark scala apache-spark-dataset

17.03.2023

Как работает алгоритм хеширования в Dataset.repartition

Я делал базовую переработку набора данных. У меня есть данные, как показано ниже в файле test.csv abc,1 def,2 ghi,3 jkl,4 mno,5 Я читаю в кадре данных, например val df= spark.read.csv("test.csv") val repart=df.repartition(5,col("_c1"))...

384 просмотров

apache-spark scala apache-spark-dataset

29.04.2023

Сводка столбца (достижение функции куба в наборе данных Spark)

679 просмотров

apache-spark apache-spark-sql scala rdd apache-spark-dataset

20.02.2023

Как удалить искаженные строки при чтении csv с помощью схемы Spark?

Пока я использую Spark DataSet для загрузки CSV-файла. Я предпочитаю четкое обозначение схемы. Но я обнаружил, что есть несколько строк, не соответствующих моей схеме. Столбец должен быть двойным, но некоторые строки не являются числовыми...

11394 просмотров

apache-spark apache-spark-dataset

22.05.2023

Добавить UUID в набор данных Spark

Я пытаюсь добавить столбец UUID в свой набор данных. getDataset(Transaction.class)).withColumn("uniqueId", functions.lit(UUID.randomUUID().toString())).show(false); Но в результате все строки имеют одинаковый UUID. Как я могу сделать его...

13755 просмотров

apache-spark apache-spark-dataset spark-csv

24.06.2022

Функция карты Spark Dataframe

val df1 = Seq(("Brian", 29, "0-A-1234")).toDF("name", "age", "client-ID") val df2 = Seq(("1234", 555-5555, "1234 anystreet")).toDF("office-ID", "BusinessNumber", "Address") Я пытаюсь запустить функцию в каждой строке кадра данных (в потоковом...

4439 просмотров

apache-spark apache-spark-sql spark-streaming apache-spark-dataset spark-dataframe

17.02.2023

Вопросы по теме 'apache-spark-dataset'

Похожие вопросы