Вопросы по теме 'spark-dataframe'

Как повысить производительность для медленных заданий Spark с использованием соединения DataFrame и JDBC?
Я пытаюсь получить доступ к таблице Teradata среднего размера (~ 100 миллионов строк) через JDBC в автономном режиме на одном узле (local[*]). Я использую Спарк 1.4.1. и установлен на очень мощной машине (2 процессора, 24 ядра, 126 ГБ ОЗУ). Я...
21782 просмотров

Кадры данных медленно анализируют небольшой объем данных
У меня есть 2 класса, выполняющих аналогичную задачу в Apache Spark, но тот, который использует фрейм данных, во много раз медленнее, чем «обычный», использующий RDD. (30x) Я хотел бы использовать фрейм данных, так как он устранит много кода и...
1661 просмотров

Spark DataFrame InsertIntoJDBC — исключение TableAlreadyExists
Используя Spark 1.4.0, я пытаюсь вставить данные из Spark DataFrame в базу данных MemSQL (что должно быть точно таким же, как взаимодействие с базой данных MySQL), используя insertIntoJdbc(). Однако я продолжаю получать исключение Runtime...
8044 просмотров

Spark не позволяет мне подсчитывать присоединенные кадры данных
Новичок в Spark Jobs, и у меня есть следующая проблема. Когда я запускаю подсчет любого из недавно присоединенных фреймов данных, задание выполняется целую вечность и выбрасывает память на диск. Нет ли здесь логической ошибки? // pass...
526 просмотров
schedule 06.01.2023

java.NullPointException в методе DataFrame.show () в Spark - scala
РЕДАКТИРОВАТЬ: извините за качество предыдущего вопроса, я надеюсь, что этот будет более ясным: с помощью приложения Spark я загружаю весь каталог следующих файлов JSON: { "type": "some_type", "payload": { "data1":...
1783 просмотров

Пользовательская схема в spark-csv выдает ошибку в spark 1.4.1
Я пытаюсь обработать файл CSV, используя пакет spark -csv в spark-shell в spark 1.4.1. scala> import org.apache.spark.sql.hive.HiveContext import...
454 просмотров
schedule 29.06.2022

Добавить столбец в строку в Spark
У меня есть DataFrame , который я хочу расширить новым столбцом. Создание нового DateFrame из Row s объясняется здесь. . Моя текущая стратегия заключается в создании новых Row с RowFactory из Row , которые передаются в мою карту,...
2224 просмотров
schedule 08.03.2023

java.io.InvalidClassException: org.apache.spark.sql.types.TimestampType и java.lang.UnsupportedOperationException: конец пустого списка
Я использую кадры данных Spark для запроса Cassandra, выполняю некоторую обработку и сохраняю результаты обратно в Cassandra. Я использую Datastax Enterprise 4.8.3 и делаю искровую отправку. Я получаю следующую ошибку, но не каждый раз....
1000 просмотров

Преобразование типа данных столбца с помощью фрейма данных Spark.
У меня есть rdd, тип которого — строка, потому что он был прочитан из текстового файла и содержит около 20 полей. Например, val rdd = sc.parallelize(Seq( ("1", "2.0", "three"), ("1", "2.0", "three"))) Я хочу использовать динамически...
1485 просмотров
schedule 19.12.2022

Лучший способ итерации / потоковой передачи Spark Dataframe
У меня есть задание Spark, которое читает файл паркета с примерно 150 000 000 записей ключ/значение. SparkConf conf = new SparkConf(); conf.setAppName("Job"); JavaSparkContext jsc = new JavaSparkContext(conf); SQLContext sql = new...
1846 просмотров
schedule 09.10.2022

Как запустить два запроса SparkSql параллельно в Apache Spark
Во-первых, позвольте мне написать часть кода, которую я хочу выполнить, в файле .scala на Spark. Это мой исходный файл. Имеет структурированные данные с четырьмя полями. val inputFile =...
4002 просмотров

Использование функций Hive в Spark Job через hiveContext
Я использую Hive 1.2 и Spark 1.4.1. Следующий запрос отлично работает через Hive CLI: hive> select row_number() over (partition by one.id order by two.id) as sk, two.id, two.name, one.name, current_date() from avant_source.one one inner join...
935 просмотров

При записи с помощью Spark SQL печатаются несколько строк заголовка
Я использую Spark SQL для загрузки больших файлов CSV и объединения их в общий столбец. После выполнения соединения в моем коде я хотел бы сохранить таблицу обратно в новый файл CSV. Для этого я использую метод write() в DataFrame. При просмотре...
998 просмотров

Неожиданные значения столбца после условия IN в методе where() кадра данных в искре
Задача: мне нужно, чтобы значение столбца child_id [Which is generated using withColumn() method and monoliticallyIncreasingId() method] соответствовало столбцу family_id и id . Позвольте мне объяснить шаги для выполнения моей задачи:...
99 просмотров
schedule 11.02.2023

Фильтрация кадра данных на основе другого кадра данных в Spark
У меня есть dataframe df со столбцами date: timestamp status : String name : String Я пытаюсь найти последний статус всех имен val users = df.select("name").distinct val final_status = users.map( t => { val _name =...
818 просмотров
schedule 02.08.2023

Как эффективно читать данные из mongodb и преобразовывать их в фрейм данных искры?
Я уже много исследовал, но не смог найти решение. Ближайший вопрос, который я смог найти здесь: Почему мой SPARK работает очень медленно с mongoDB . Я пытаюсь загрузить коллекцию mongodb в DataFrame искры, используя соединитель mongo-hadoop. Вот...
5070 просмотров
schedule 07.06.2022

Как я могу распараллелить цикл for в spark с помощью scala?
Например, у нас есть файл паркета с ценой закрытия 2000 символов акций за последние 3 года, и мы хотим рассчитать 5-дневную скользящую среднюю для каждого символа. Итак, я создаю искру SQLContext, а затем val marketData = sqlcontext.sql("select...
8581 просмотров

Параметр Spark scala в row.getDouble
У меня возникла очень интересная ошибка, когда я пытаюсь передать фрейм данных в RDD в своем классе. Я создаю класс с именем ROC, и он выглядит так: class ROC(lines : DataFrame, x: Int, y: Int) { private val metrics:...
1429 просмотров
schedule 20.02.2023

Обучение Sparks word2vec с RDD[String]
Я новичок в Spark и Scala, поэтому я мог неправильно понять некоторые основные вещи. Я пытаюсь обучить модель Sparks word2vec на своих собственных данных. Согласно их документации , один из способов сделать это: val input =...
1030 просмотров

Как найти зарегистрированного/подключенного/текущего пользователя в объекте контекста улья spark sql?
Как найти зарегистрированного/подключенного/текущего пользователя в объекте контекста улья spark sql? Можно использовать любой запрос sql или команду Unix.? Я пробовал с ! Кто я; команда в командной строке куста. Является ли это оптимальным...
2764 просмотров