Вопросы по теме 'apache-spark-dataset'
DataFrame/группа наборов данныхПо поведению/оптимизации
Предположим, у нас есть DataFrame df , состоящий из следующих столбцов:
Имя, Фамилия, Размер, Ширина, Длина, Вес
Теперь мы хотим выполнить пару операций, например, мы хотим создать пару фреймов данных, содержащих данные о размере и...
18585 просмотров
schedule
29.05.2022
Spark Dataset API - присоединиться
Я пытаюсь использовать Dataset API Spark, но я у меня возникли проблемы с простым соединением.
Допустим, у меня есть два набора данных с полями: date | value , тогда в случае DataFrame мое соединение будет выглядеть так:
val dfA :...
31477 просмотров
schedule
15.04.2022
как использовать группу в наборе данных spark
Я использую набор данных Spark (версия Spark 1.6.1). Ниже мой код
object App {
val conf = new SparkConf()
.setMaster("local")
.setAppName("SparkETL")
val sc = new SparkContext(conf)
sc.setLogLevel("ERROR")
val sqlContext = new SQLContext(sc);...
3177 просмотров
schedule
14.07.2023
Агрегатор SparkSQL: ошибка несоответствия типов
Я использую Databricks Community Edition с предварительной версией Spark 2.0. Я пробовал следующий (простой) код:
import org.apache.spark.sql.expressions.Aggregator
import org.apache.spark.sql.Encoder
import java.util.Calendar
import...
731 просмотров
schedule
10.04.2023
Набор данных Spark: пример: невозможно создать проблему с кодировщиком
Новичок в мире искр и попытка примера набора данных, написанного на scala, который я нашел в Интернете.
При запуске через SBT я продолжаю получать следующую ошибку
org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner...
5378 просмотров
schedule
03.12.2022
Замена Apache Spark RDD
Я пытаюсь решить проблему, так что у меня есть такой набор данных:
(1, 3)
(1, 4)
(1, 7)
(1, 2) <-
(2, 7) <-
(6, 6)
(3, 7) <-
(7, 4) <-
...
Так как (1 -> 2) и (2 -> 7) хотелось бы заменить набор (2, 7) на...
141 просмотров
schedule
30.01.2023
Как распараллелить / распределить запросы / счетчики в Spark DataFrame?
У меня есть DataFrame , к которому я должен применить серию фильтровальных запросов. Например, я загружаю свой DataFrame следующим образом.
val df = spark.read.parquet("hdfs://box/some-parquet")
Затем у меня есть куча "произвольных"...
2659 просмотров
schedule
24.06.2023
groupByKey в наборе данных Spark
Пожалуйста, помогите мне понять параметр, который мы передаем в groupByKey, когда он используется в наборе данных.
scala> val data = spark.read.text("Sample.txt").as[String]
data: org.apache.spark.sql.Dataset[String] = [value: string]...
23295 просмотров
schedule
27.04.2022
Агрегация набора данных Spark аналогична агрегации RDD (ноль) (накопление, объединитель)
RDD имеет очень полезный агрегатный метод, который позволяет накапливать с некоторым нулевым значением и объединять его между разделами. Есть ли способ сделать это с помощью Dataset[T] . Насколько я вижу спецификацию через Scala doc, на самом...
1433 просмотров
schedule
15.05.2023
Как преобразовать JavaPairRDD в набор данных?
SparkSession.createDataset() позволяет только List, RDD, or Seq , но не поддерживает JavaPairRDD .
Итак, если у меня есть JavaPairRDD<String, User> , из которого я хочу создать Dataset , будет ли жизнеспособным обходным путем для...
4694 просмотров
schedule
26.11.2022
Как прочитать несколько файлов Excel и объединить их в один фрейм данных Apache Spark?
Недавно я хотел провести лабораторию машинного обучения Spark на Spark Summit 2016. Обучающее видео можно найти здесь экспортированная записная книжка доступна здесь .
Набор данных, используемый в лабораторной работе, можно загрузить из...
7520 просмотров
schedule
20.05.2023
Как случайным образом выбрать строки из одного фрейма данных, используя информацию из другого фрейма данных
Следующее я пытаюсь сделать в Scala-Spark.
Я надеюсь, что кто-то может дать мне совет о том, как решить эту проблему, или предоставит мне ресурсы, чтобы выяснить, что я могу сделать.
У меня есть dateCountDF со счетом, соответствующим дате. Я...
838 просмотров
schedule
27.07.2022
Поиск и замена в Apache Spark
Мы создали два набора данных, предложениеDataFrame, предложениеDataFrame2, где должна произойти замена поиска.
предложениеDataFrame2 хранит условия поиска и замены.
Мы также выполнили все 11 типов соединений: «внутреннее», «внешнее», «полное»,...
615 просмотров
schedule
09.02.2023
Обновите набор данных в spark-shell, разбив один элемент на несколько частей и вставив строку для каждой части.
У меня есть вариант использования, когда я храню свои данные в наборе данных. У меня есть столбец, в котором я могу иметь несколько значений в строке, разделенных трубой (|). Итак, типичный ряд выглядит так:
2016/01/01 1/XYZ PQR M|N|O
Я...
137 просмотров
schedule
15.02.2023
Dataset.unpersist() неожиданно влияет на количество других RDD
Я столкнулся со странной проблемой, когда вызов unpersist() для одного набора данных влияет на количество другого набора данных в том же блоке кода. К сожалению, это происходит во время сложной длительной работы со многими наборами данных, поэтому...
645 просмотров
schedule
17.03.2023
Как работает алгоритм хеширования в Dataset.repartition
Я делал базовую переработку набора данных. У меня есть данные, как показано ниже в файле test.csv
abc,1
def,2
ghi,3
jkl,4
mno,5
Я читаю в кадре данных, например
val df= spark.read.csv("test.csv")
val repart=df.repartition(5,col("_c1"))...
384 просмотров
schedule
29.04.2023
Сводка столбца (достижение функции куба в наборе данных Spark)
Для приведенного ниже набора данных мне нужно получить сводные данные на основе выбранного столбца. Образец набора данных содержит следующие данные ниже.
+---------+----------+--------+---------+
| Column1 | Column2 | Expend | Expend2 |...
679 просмотров
schedule
20.02.2023
Как удалить искаженные строки при чтении csv с помощью схемы Spark?
Пока я использую Spark DataSet для загрузки CSV-файла. Я предпочитаю четкое обозначение схемы. Но я обнаружил, что есть несколько строк, не соответствующих моей схеме. Столбец должен быть двойным, но некоторые строки не являются числовыми...
11394 просмотров
schedule
22.05.2023
Добавить UUID в набор данных Spark
Я пытаюсь добавить столбец UUID в свой набор данных.
getDataset(Transaction.class)).withColumn("uniqueId", functions.lit(UUID.randomUUID().toString())).show(false);
Но в результате все строки имеют одинаковый UUID. Как я могу сделать его...
13755 просмотров
schedule
24.06.2022
Функция карты Spark Dataframe
val df1 = Seq(("Brian", 29, "0-A-1234")).toDF("name", "age", "client-ID")
val df2 = Seq(("1234", 555-5555, "1234 anystreet")).toDF("office-ID", "BusinessNumber", "Address")
Я пытаюсь запустить функцию в каждой строке кадра данных (в потоковом...
4439 просмотров
schedule
17.02.2023