Статьи по тематике rdd [apache-spark, scala, rdd, distributed-computing, out-of-memory]

Вопросы по теме 'rdd'

путаница в понимании передачи параметра в scala

Два метода groupBy в Spark RDD объявлены как: def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] def groupBy[K](f: T => K, numPartitions: Int)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] Я определяю функцию...

754 просмотров

apache-spark scala rdd

06.04.2022

В чем разница между кешированием и сохранением?

Что касается RDD настойчивости, каковы различия между cache() и persist() в искре?

121791 просмотров

apache-spark rdd distributed-computing

24.02.2022

Ошибка Spark: недостаточно места для кэширования раздела rdd_8_2 в памяти! Свободная память 58905314 байт

Когда я запускаю задание Spark, используя его пример кода BinaryClassification.scala с моими собственными данными, оно всегда показывает такие ошибки, как «Недостаточно места для кэширования раздела rdd_8_2 в памяти! Свободная память составляет...

15424 просмотров

out-of-memory apache-spark scala rdd

05.11.2023

Spark RDD с общими указателями в каждом разделе (и магическое число 200??)

Я пытаюсь сохранить искровой RDD, в котором все элементы каждого раздела имеют общий доступ к одному большому объекту. Однако этот объект, кажется, сохраняется в памяти несколько раз. Сведение моей проблемы к игрушечному случаю с одним разделом...

575 просмотров

apache-spark scala rdd

22.05.2022

возьмите верхние N после groupBy и обработайте их как RDD

Я хотел бы получить верхние элементы N после groupByKey из RDD и преобразовать тип topNPerGroup (ниже) в RDD[(String, Int)] , где значения List[Int] равны flatten data это val data = sc.parallelize(Seq("foo"->3, "foo"->1,...

5599 просмотров

apache-spark scala rdd

16.05.2023

Spark выдает исключение NullPointerException в JdbcRDD в кластере с двумя рабочими процессами.

Я запускаю искровой кластер с двумя рабочими, каждый по 60 ГБ. Я написал ниже код для JdbcRDD. String sql = "SELECT * FROM( SELECT ROW_NUMBER() OVER(ORDER BY (SELECT 1)) AS Row,"+ " * FROM [Table_1]) A WHERE Row >= ? AND...

1879 просмотров

java apache-spark rdd

29.08.2022

Схема из SchemaRDD?

Учитывая SchemaRDD (загружается с использованием SQLContext.parquetFile ), как извлечь его метаданные/схему/список столбцов?

204 просмотров

apache-spark apache-spark-sql scala rdd

19.04.2024

Spark: эффективный способ проверить, пуст ли RDD

В RDD нет метода isEmpty , так каков наиболее эффективный способ тестирования, если RDD пуст?

29489 просмотров

apache-spark scala rdd

21.07.2022

Что такое зависимость RDD в Spark?

Насколько мне известно, существует два типа зависимостей: узкая и широкая . Но я не понимаю, как зависимость влияет на дочерний RDD . Является ли дочерний RDD только метаданными, содержащими информацию о том, как создавать новые блоки RDD из...

4855 просмотров

apache-spark rdd

29.03.2023

Ошибка при запуске Spark в экземпляре облака Google

Я запускаю отдельное приложение с использованием Apache Spark, и когда я загружаю все свои данные в RDD в виде текстового файла, я получаю следующую ошибку: 15/02/27 20:34:40 ERROR Utils: Uncaught exception in thread stdout writer for python...

806 просмотров

out-of-memory apache-spark rdd google-hadoop

25.04.2023

Как получить доступ к карте, измененной в RDD, в программе драйвера Apache Spark?

Нужна помощь. Я работаю над Apache Spark 1.2.0. У меня есть требование, или, скорее, я должен сказать, что застрял в каком-то вопросе. Это как :- Я запускаю функцию карты в RDD, в которой я создаю несколько экземпляров объекта и сохраняю эти...

118 просмотров

apache-spark rdd driver

26.03.2023

Сериализация и настраиваемый класс Spark RDD

Я пишу собственную реализацию Spark RDD на Scala и отлаживаю свою реализацию с помощью оболочки Spark. Моя цель на данный момент - получить: customRDD.count чтобы добиться успеха без исключения. Прямо сейчас я получаю следующее:...

6564 просмотров

apache-spark hadoop serialization scala rdd

15.03.2023

Spark SQL — обработка SQL-скриптов

Я новичок в Spark и хотел бы знать, есть ли возможность передать Spark скрипт SQL для обработки. Моя цель состоит в том, чтобы перенести данные из mysql через jdbc и Cassandra в Spark и передать файл сценария SQL без необходимости его изменения или...

713 просмотров

sql cassandra apache-spark rdd

24.01.2023

Spark — Prediction.io — scala.MatchError: null

Я работаю над шаблоном для prediction.io и у меня возникли проблемы со Spark. Я продолжаю получать ошибку scala.MatchError : полная суть здесь scala.MatchError: null at...

549 просмотров

apache-spark scala rdd apache-spark-mllib predictionio

30.12.2022

Сериализация задач Apache Spark

Этот метод дает мне ошибку сериализации задачи: def singleItemPrediction(userid : Int, item : Int) = { val userAndItems = useritemrating.filter({x => x._1 == userid && x._2 != item}) val userMean =...

93 просмотров

apache-spark scala rdd

04.05.2024

Данные в памяти для RDD

Я использую Spark, и мне интересно, как именно работают RDD. Я понимаю, что RDD - это указатель на данные. Если я пытаюсь создать RDD для файла HDFS, я понимаю, что RDD будет указателем на фактические данные в файле HDFS. Чего я не понимаю, так...

251 просмотров

apache-spark hadoop rdd

10.01.2023

Вычисление средних значений для каждого KEY в парном (K, V) RDD в Spark с Python

Я хочу поделиться этим конкретным решением Apache Spark с Python, потому что документация для него довольно плохая. Я хотел рассчитать среднее значение пар K/V (хранящихся в Pairwise RDD) по KEY. Вот как выглядят данные примера: >>>...

36243 просмотров

python apache-spark rdd average aggregate

02.01.2023

Spark текстовое поле JSON для RDD

У меня есть таблица cassandra с полем типа text с именем snapshot, содержащим объекты JSON: [identifier, timestamp, snapshot] Я понял, что для того, чтобы иметь возможность выполнять преобразования в этом поле с помощью Spark, мне нужно...

22408 просмотров

cassandra apache-spark scala rdd

15.07.2023

сложное соединение в искре: элементы rdd имеют много пар ключ-значение

Я новичок в искре и пытаюсь найти способ интегрировать информацию из одного rdd в другой, но их структуры не поддаются стандартной функции соединения. У меня на rdd такого формата: [{a:a1, b:b1, c:[1,2,3,4], d:d1}, {a:a2, b:b2, c:[5,6,7,8],...

1127 просмотров

pyspark join rdd

06.12.2022

Как поэлементно объединить два RDD

Предположим, у меня есть два RDD, например первый 1 2 3 4 5 второй 6 7 8 9 10 Новый RDD будет 1 6 2 7 3 8 4 9 5 10 Итак, это в основном поэлементное слияние... Мы предполагаем, что два RDD имеют одинаковый размер.

1056 просмотров

python apache-spark pyspark rdd

02.06.2023

Вопросы по теме 'rdd'

Похожие вопросы