Вопросы по теме 'spark-dataframe'
Как повысить производительность для медленных заданий Spark с использованием соединения DataFrame и JDBC?
Я пытаюсь получить доступ к таблице Teradata среднего размера (~ 100 миллионов строк) через JDBC в автономном режиме на одном узле (local[*]).
Я использую Спарк 1.4.1. и установлен на очень мощной машине (2 процессора, 24 ядра, 126 ГБ ОЗУ).
Я...
21782 просмотров
schedule
23.11.2022
Кадры данных медленно анализируют небольшой объем данных
У меня есть 2 класса, выполняющих аналогичную задачу в Apache Spark, но тот, который использует фрейм данных, во много раз медленнее, чем «обычный», использующий RDD. (30x)
Я хотел бы использовать фрейм данных, так как он устранит много кода и...
1661 просмотров
schedule
29.04.2023
Spark DataFrame InsertIntoJDBC — исключение TableAlreadyExists
Используя Spark 1.4.0, я пытаюсь вставить данные из Spark DataFrame в базу данных MemSQL (что должно быть точно таким же, как взаимодействие с базой данных MySQL), используя insertIntoJdbc(). Однако я продолжаю получать исключение Runtime...
8044 просмотров
schedule
14.10.2022
Spark не позволяет мне подсчитывать присоединенные кадры данных
Новичок в Spark Jobs, и у меня есть следующая проблема.
Когда я запускаю подсчет любого из недавно присоединенных фреймов данных, задание выполняется целую вечность и выбрасывает память на диск. Нет ли здесь логической ошибки?
// pass...
526 просмотров
schedule
06.01.2023
java.NullPointException в методе DataFrame.show () в Spark - scala
РЕДАКТИРОВАТЬ: извините за качество предыдущего вопроса, я надеюсь, что этот будет более ясным: с помощью приложения Spark я загружаю весь каталог следующих файлов JSON:
{
"type": "some_type",
"payload": {
"data1":...
1783 просмотров
schedule
08.04.2022
Пользовательская схема в spark-csv выдает ошибку в spark 1.4.1
Я пытаюсь обработать файл CSV, используя пакет spark -csv в spark-shell в spark 1.4.1.
scala> import org.apache.spark.sql.hive.HiveContext
import...
454 просмотров
schedule
29.06.2022
Добавить столбец в строку в Spark
У меня есть DataFrame , который я хочу расширить новым столбцом. Создание нового DateFrame из Row s объясняется здесь. .
Моя текущая стратегия заключается в создании новых Row с RowFactory из Row , которые передаются в мою карту,...
2224 просмотров
schedule
08.03.2023
java.io.InvalidClassException: org.apache.spark.sql.types.TimestampType и java.lang.UnsupportedOperationException: конец пустого списка
Я использую кадры данных Spark для запроса Cassandra, выполняю некоторую обработку и сохраняю результаты обратно в Cassandra. Я использую Datastax Enterprise 4.8.3 и делаю искровую отправку. Я получаю следующую ошибку, но не каждый раз....
1000 просмотров
schedule
22.08.2022
Преобразование типа данных столбца с помощью фрейма данных Spark.
У меня есть rdd, тип которого — строка, потому что он был прочитан из текстового файла и содержит около 20 полей. Например,
val rdd = sc.parallelize(Seq( ("1", "2.0", "three"), ("1", "2.0", "three")))
Я хочу использовать динамически...
1485 просмотров
schedule
19.12.2022
Лучший способ итерации / потоковой передачи Spark Dataframe
У меня есть задание Spark, которое читает файл паркета с примерно 150 000 000 записей ключ/значение.
SparkConf conf = new SparkConf();
conf.setAppName("Job");
JavaSparkContext jsc = new JavaSparkContext(conf);
SQLContext sql = new...
1846 просмотров
schedule
09.10.2022
Как запустить два запроса SparkSql параллельно в Apache Spark
Во-первых, позвольте мне написать часть кода, которую я хочу выполнить, в файле .scala на Spark.
Это мой исходный файл. Имеет структурированные данные с четырьмя полями.
val inputFile =...
4002 просмотров
schedule
12.12.2022
Использование функций Hive в Spark Job через hiveContext
Я использую Hive 1.2 и Spark 1.4.1. Следующий запрос отлично работает через Hive CLI:
hive> select row_number() over (partition by one.id order by two.id) as sk,
two.id, two.name, one.name, current_date()
from avant_source.one one
inner join...
935 просмотров
schedule
12.06.2023
При записи с помощью Spark SQL печатаются несколько строк заголовка
Я использую Spark SQL для загрузки больших файлов CSV и объединения их в общий столбец. После выполнения соединения в моем коде я хотел бы сохранить таблицу обратно в новый файл CSV. Для этого я использую метод write() в DataFrame. При просмотре...
998 просмотров
schedule
27.09.2022
Неожиданные значения столбца после условия IN в методе where() кадра данных в искре
Задача: мне нужно, чтобы значение столбца child_id [Which is generated using withColumn() method and monoliticallyIncreasingId() method] соответствовало столбцу family_id и id .
Позвольте мне объяснить шаги для выполнения моей задачи:...
99 просмотров
schedule
11.02.2023
Фильтрация кадра данных на основе другого кадра данных в Spark
У меня есть dataframe df со столбцами
date: timestamp
status : String
name : String
Я пытаюсь найти последний статус всех имен
val users = df.select("name").distinct
val final_status = users.map( t =>
{
val _name =...
818 просмотров
schedule
02.08.2023
Как эффективно читать данные из mongodb и преобразовывать их в фрейм данных искры?
Я уже много исследовал, но не смог найти решение. Ближайший вопрос, который я смог найти здесь: Почему мой SPARK работает очень медленно с mongoDB .
Я пытаюсь загрузить коллекцию mongodb в DataFrame искры, используя соединитель mongo-hadoop. Вот...
5070 просмотров
schedule
07.06.2022
Как я могу распараллелить цикл for в spark с помощью scala?
Например, у нас есть файл паркета с ценой закрытия 2000 символов акций за последние 3 года, и мы хотим рассчитать 5-дневную скользящую среднюю для каждого символа.
Итак, я создаю искру SQLContext, а затем
val marketData = sqlcontext.sql("select...
8581 просмотров
schedule
19.12.2023
Параметр Spark scala в row.getDouble
У меня возникла очень интересная ошибка, когда я пытаюсь передать фрейм данных в RDD в своем классе.
Я создаю класс с именем ROC, и он выглядит так:
class ROC(lines : DataFrame, x: Int, y: Int) {
private val metrics:...
1429 просмотров
schedule
20.02.2023
Обучение Sparks word2vec с RDD[String]
Я новичок в Spark и Scala, поэтому я мог неправильно понять некоторые основные вещи. Я пытаюсь обучить модель Sparks word2vec на своих собственных данных. Согласно их документации , один из способов сделать это:
val input =...
1030 просмотров
schedule
23.01.2023
Как найти зарегистрированного/подключенного/текущего пользователя в объекте контекста улья spark sql?
Как найти зарегистрированного/подключенного/текущего пользователя в объекте контекста улья spark sql?
Можно использовать любой запрос sql или команду Unix.?
Я пробовал с ! Кто я; команда в командной строке куста. Является ли это оптимальным...
2764 просмотров
schedule
20.02.2023