Вопросы по теме 'apache-spark-dataset'

DataFrame/группа наборов данныхПо поведению/оптимизации
Предположим, у нас есть DataFrame df , состоящий из следующих столбцов: Имя, Фамилия, Размер, Ширина, Длина, Вес Теперь мы хотим выполнить пару операций, например, мы хотим создать пару фреймов данных, содержащих данные о размере и...
18585 просмотров

Spark Dataset API - присоединиться
Я пытаюсь использовать Dataset API Spark, но я у меня возникли проблемы с простым соединением. Допустим, у меня есть два набора данных с полями: date | value , тогда в случае DataFrame мое соединение будет выглядеть так: val dfA :...
31477 просмотров

как использовать группу в наборе данных spark
Я использую набор данных Spark (версия Spark 1.6.1). Ниже мой код object App { val conf = new SparkConf() .setMaster("local") .setAppName("SparkETL") val sc = new SparkContext(conf) sc.setLogLevel("ERROR") val sqlContext = new SQLContext(sc);...
3177 просмотров

Агрегатор SparkSQL: ошибка несоответствия типов
Я использую Databricks Community Edition с предварительной версией Spark 2.0. Я пробовал следующий (простой) код: import org.apache.spark.sql.expressions.Aggregator import org.apache.spark.sql.Encoder import java.util.Calendar import...
731 просмотров

Набор данных Spark: пример: невозможно создать проблему с кодировщиком
Новичок в мире искр и попытка примера набора данных, написанного на scala, который я нашел в Интернете. При запуске через SBT я продолжаю получать следующую ошибку org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner...
5378 просмотров

Замена Apache Spark RDD
Я пытаюсь решить проблему, так что у меня есть такой набор данных: (1, 3) (1, 4) (1, 7) (1, 2) <- (2, 7) <- (6, 6) (3, 7) <- (7, 4) <- ... Так как (1 -> 2) и (2 -> 7) хотелось бы заменить набор (2, 7) на...
141 просмотров

Как распараллелить / распределить запросы / счетчики в Spark DataFrame?
У меня есть DataFrame , к которому я должен применить серию фильтровальных запросов. Например, я загружаю свой DataFrame следующим образом. val df = spark.read.parquet("hdfs://box/some-parquet") Затем у меня есть куча "произвольных"...
2659 просмотров

groupByKey в наборе данных Spark
Пожалуйста, помогите мне понять параметр, который мы передаем в groupByKey, когда он используется в наборе данных. scala> val data = spark.read.text("Sample.txt").as[String] data: org.apache.spark.sql.Dataset[String] = [value: string]...
23295 просмотров
schedule 27.04.2022

Агрегация набора данных Spark аналогична агрегации RDD (ноль) (накопление, объединитель)
RDD имеет очень полезный агрегатный метод, который позволяет накапливать с некоторым нулевым значением и объединять его между разделами. Есть ли способ сделать это с помощью Dataset[T] . Насколько я вижу спецификацию через Scala doc, на самом...
1433 просмотров

Как преобразовать JavaPairRDD в набор данных?
SparkSession.createDataset() позволяет только List, RDD, or Seq , но не поддерживает JavaPairRDD . Итак, если у меня есть JavaPairRDD<String, User> , из которого я хочу создать Dataset , будет ли жизнеспособным обходным путем для...
4694 просмотров

Как прочитать несколько файлов Excel и объединить их в один фрейм данных Apache Spark?
Недавно я хотел провести лабораторию машинного обучения Spark на Spark Summit 2016. Обучающее видео можно найти здесь экспортированная записная книжка доступна здесь . Набор данных, используемый в лабораторной работе, можно загрузить из...
7520 просмотров

Как случайным образом выбрать строки из одного фрейма данных, используя информацию из другого фрейма данных
Следующее я пытаюсь сделать в Scala-Spark. Я надеюсь, что кто-то может дать мне совет о том, как решить эту проблему, или предоставит мне ресурсы, чтобы выяснить, что я могу сделать. У меня есть dateCountDF со счетом, соответствующим дате. Я...
838 просмотров

Поиск и замена в Apache Spark
Мы создали два набора данных, предложениеDataFrame, предложениеDataFrame2, где должна произойти замена поиска. предложениеDataFrame2 хранит условия поиска и замены. Мы также выполнили все 11 типов соединений: «внутреннее», «внешнее», «полное»,...
615 просмотров

Обновите набор данных в spark-shell, разбив один элемент на несколько частей и вставив строку для каждой части.
У меня есть вариант использования, когда я храню свои данные в наборе данных. У меня есть столбец, в котором я могу иметь несколько значений в строке, разделенных трубой (|). Итак, типичный ряд выглядит так: 2016/01/01 1/XYZ PQR M|N|O Я...
137 просмотров

Dataset.unpersist() неожиданно влияет на количество других RDD
Я столкнулся со странной проблемой, когда вызов unpersist() для одного набора данных влияет на количество другого набора данных в том же блоке кода. К сожалению, это происходит во время сложной длительной работы со многими наборами данных, поэтому...
645 просмотров

Как работает алгоритм хеширования в Dataset.repartition
Я делал базовую переработку набора данных. У меня есть данные, как показано ниже в файле test.csv abc,1 def,2 ghi,3 jkl,4 mno,5 Я читаю в кадре данных, например val df= spark.read.csv("test.csv") val repart=df.repartition(5,col("_c1"))...
384 просмотров

Сводка столбца (достижение функции куба в наборе данных Spark)
Для приведенного ниже набора данных мне нужно получить сводные данные на основе выбранного столбца. Образец набора данных содержит следующие данные ниже. +---------+----------+--------+---------+ | Column1 | Column2 | Expend | Expend2 |...
679 просмотров

Как удалить искаженные строки при чтении csv с помощью схемы Spark?
Пока я использую Spark DataSet для загрузки CSV-файла. Я предпочитаю четкое обозначение схемы. Но я обнаружил, что есть несколько строк, не соответствующих моей схеме. Столбец должен быть двойным, но некоторые строки не являются числовыми...
11394 просмотров
schedule 22.05.2023

Добавить UUID в набор данных Spark
Я пытаюсь добавить столбец UUID в свой набор данных. getDataset(Transaction.class)).withColumn("uniqueId", functions.lit(UUID.randomUUID().toString())).show(false); Но в результате все строки имеют одинаковый UUID. Как я могу сделать его...
13755 просмотров

Функция карты Spark Dataframe
val df1 = Seq(("Brian", 29, "0-A-1234")).toDF("name", "age", "client-ID") val df2 = Seq(("1234", 555-5555, "1234 anystreet")).toDF("office-ID", "BusinessNumber", "Address") Я пытаюсь запустить функцию в каждой строке кадра данных (в потоковом...
4439 просмотров