Статьи по тематике spark-dataframe [apache-spark, pyspark, teradata, spark-dataframe, java]

Вопросы по теме 'spark-dataframe'

Как повысить производительность для медленных заданий Spark с использованием соединения DataFrame и JDBC?

Я пытаюсь получить доступ к таблице Teradata среднего размера (~ 100 миллионов строк) через JDBC в автономном режиме на одном узле (local[*]). Я использую Спарк 1.4.1. и установлен на очень мощной машине (2 процессора, 24 ядра, 126 ГБ ОЗУ). Я...

21782 просмотров

23.11.2022

Кадры данных медленно анализируют небольшой объем данных

У меня есть 2 класса, выполняющих аналогичную задачу в Apache Spark, но тот, который использует фрейм данных, во много раз медленнее, чем «обычный», использующий RDD. (30x) Я хотел бы использовать фрейм данных, так как он устранит много кода и...

1661 просмотров

java apache-spark apache-spark-sql spark-dataframe

29.04.2023

Spark DataFrame InsertIntoJDBC — исключение TableAlreadyExists

Используя Spark 1.4.0, я пытаюсь вставить данные из Spark DataFrame в базу данных MemSQL (что должно быть точно таким же, как взаимодействие с базой данных MySQL), используя insertIntoJdbc(). Однако я продолжаю получать исключение Runtime...

8044 просмотров

mysql apache-spark singlestore spark-dataframe

14.10.2022

Spark не позволяет мне подсчитывать присоединенные кадры данных

Новичок в Spark Jobs, и у меня есть следующая проблема. Когда я запускаю подсчет любого из недавно присоединенных фреймов данных, задание выполняется целую вечность и выбрасывает память на диск. Нет ли здесь логической ошибки? // pass...

526 просмотров

apache-spark scala spark-dataframe

06.01.2023

java.NullPointException в методе DataFrame.show () в Spark - scala

РЕДАКТИРОВАТЬ: извините за качество предыдущего вопроса, я надеюсь, что этот будет более ясным: с помощью приложения Spark я загружаю весь каталог следующих файлов JSON: { "type": "some_type", "payload": { "data1":...

1783 просмотров

json nullpointerexception apache-spark scala spark-dataframe

08.04.2022

Пользовательская схема в spark-csv выдает ошибку в spark 1.4.1

Я пытаюсь обработать файл CSV, используя пакет spark -csv в spark-shell в spark 1.4.1. scala> import org.apache.spark.sql.hive.HiveContext import...

454 просмотров

apache-spark spark-csv spark-dataframe

29.06.2022

Добавить столбец в строку в Spark

У меня есть DataFrame , который я хочу расширить новым столбцом. Создание нового DateFrame из Row s объясняется здесь. . Моя текущая стратегия заключается в создании новых Row с RowFactory из Row , которые передаются в мою карту,...

2224 просмотров

apache-spark spark-dataframe

08.03.2023

java.io.InvalidClassException: org.apache.spark.sql.types.TimestampType и java.lang.UnsupportedOperationException: конец пустого списка

Я использую кадры данных Spark для запроса Cassandra, выполняю некоторую обработку и сохраняю результаты обратно в Cassandra. Я использую Datastax Enterprise 4.8.3 и делаю искровую отправку. Я получаю следующую ошибку, но не каждый раз....

1000 просмотров

apache-spark apache-spark-sql spark-cassandra-connector datastax-enterprise spark-dataframe

22.08.2022

Преобразование типа данных столбца с помощью фрейма данных Spark.

У меня есть rdd, тип которого — строка, потому что он был прочитан из текстового файла и содержит около 20 полей. Например, val rdd = sc.parallelize(Seq( ("1", "2.0", "three"), ("1", "2.0", "three"))) Я хочу использовать динамически...

1485 просмотров

apache-spark scala spark-dataframe

19.12.2022

Лучший способ итерации / потоковой передачи Spark Dataframe

У меня есть задание Spark, которое читает файл паркета с примерно 150 000 000 записей ключ/значение. SparkConf conf = new SparkConf(); conf.setAppName("Job"); JavaSparkContext jsc = new JavaSparkContext(conf); SQLContext sql = new...

1846 просмотров

apache-spark spark-dataframe

09.10.2022

Как запустить два запроса SparkSql параллельно в Apache Spark

Во-первых, позвольте мне написать часть кода, которую я хочу выполнить, в файле .scala на Spark. Это мой исходный файл. Имеет структурированные данные с четырьмя полями. val inputFile =...

4002 просмотров

apache-spark apache-spark-sql scala spark-dataframe

12.12.2022

Использование функций Hive в Spark Job через hiveContext

Я использую Hive 1.2 и Spark 1.4.1. Следующий запрос отлично работает через Hive CLI: hive> select row_number() over (partition by one.id order by two.id) as sk, two.id, two.name, one.name, current_date() from avant_source.one one inner join...

935 просмотров

apache-spark pyspark hiveql hivecontext spark-dataframe

12.06.2023

При записи с помощью Spark SQL печатаются несколько строк заголовка

Я использую Spark SQL для загрузки больших файлов CSV и объединения их в общий столбец. После выполнения соединения в моем коде я хотел бы сохранить таблицу обратно в новый файл CSV. Для этого я использую метод write() в DataFrame. При просмотре...

998 просмотров

java apache-spark apache-spark-sql spark-dataframe

27.09.2022

Неожиданные значения столбца после условия IN в методе where() кадра данных в искре

Задача: мне нужно, чтобы значение столбца child_id [Which is generated using withColumn() method and monoliticallyIncreasingId() method] соответствовало столбцу family_id и id . Позвольте мне объяснить шаги для выполнения моей задачи:...

99 просмотров

apache-spark scala spark-dataframe

11.02.2023

Фильтрация кадра данных на основе другого кадра данных в Spark

У меня есть dataframe df со столбцами date: timestamp status : String name : String Я пытаюсь найти последний статус всех имен val users = df.select("name").distinct val final_status = users.map( t => { val _name =...

818 просмотров

apache-spark spark-dataframe

02.08.2023

Как эффективно читать данные из mongodb и преобразовывать их в фрейм данных искры?

Я уже много исследовал, но не смог найти решение. Ближайший вопрос, который я смог найти здесь: Почему мой SPARK работает очень медленно с mongoDB . Я пытаюсь загрузить коллекцию mongodb в DataFrame искры, используя соединитель mongo-hadoop. Вот...

5070 просмотров

mongodb pyspark spark-dataframe

07.06.2022

Как я могу распараллелить цикл for в spark с помощью scala?

Например, у нас есть файл паркета с ценой закрытия 2000 символов акций за последние 3 года, и мы хотим рассчитать 5-дневную скользящую среднюю для каждого символа. Итак, я создаю искру SQLContext, а затем val marketData = sqlcontext.sql("select...

8581 просмотров

apache-spark apache-spark-sql scala spark-dataframe

19.12.2023

Параметр Spark scala в row.getDouble

У меня возникла очень интересная ошибка, когда я пытаюсь передать фрейм данных в RDD в своем классе. Я создаю класс с именем ROC, и он выглядит так: class ROC(lines : DataFrame, x: Int, y: Int) { private val metrics:...

1429 просмотров

apache-spark scala spark-dataframe

20.02.2023

Обучение Sparks word2vec с RDD[String]

Я новичок в Spark и Scala, поэтому я мог неправильно понять некоторые основные вещи. Я пытаюсь обучить модель Sparks word2vec на своих собственных данных. Согласно их документации , один из способов сделать это: val input =...

1030 просмотров

apache-spark scala apache-spark-mllib spark-dataframe

23.01.2023

Как найти зарегистрированного/подключенного/текущего пользователя в объекте контекста улья spark sql?

Как найти зарегистрированного/подключенного/текущего пользователя в объекте контекста улья spark sql? Можно использовать любой запрос sql или команду Unix.? Я пробовал с ! Кто я; команда в командной строке куста. Является ли это оптимальным...

2764 просмотров

apache-spark hadoop apache-spark-sql hive spark-dataframe

20.02.2023

Вопросы по теме 'spark-dataframe'

Похожие вопросы