Вопросы по теме 'rdd'

путаница в понимании передачи параметра в scala
Два метода groupBy в Spark RDD объявлены как: def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] def groupBy[K](f: T => K, numPartitions: Int)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] Я определяю функцию...
754 просмотров
schedule 06.04.2022

В чем разница между кешированием и сохранением?
Что касается RDD настойчивости, каковы различия между cache() и persist() в искре?
121791 просмотров
schedule 24.02.2022

Ошибка Spark: недостаточно места для кэширования раздела rdd_8_2 в памяти! Свободная память 58905314 байт
Когда я запускаю задание Spark, используя его пример кода BinaryClassification.scala с моими собственными данными, оно всегда показывает такие ошибки, как «Недостаточно места для кэширования раздела rdd_8_2 в памяти! Свободная память составляет...
15424 просмотров
schedule 05.11.2023

Spark RDD с общими указателями в каждом разделе (и магическое число 200??)
Я пытаюсь сохранить искровой RDD, в котором все элементы каждого раздела имеют общий доступ к одному большому объекту. Однако этот объект, кажется, сохраняется в памяти несколько раз. Сведение моей проблемы к игрушечному случаю с одним разделом...
575 просмотров
schedule 22.05.2022

возьмите верхние N после groupBy и обработайте их как RDD
Я хотел бы получить верхние элементы N после groupByKey из RDD и преобразовать тип topNPerGroup (ниже) в RDD[(String, Int)] , где значения List[Int] равны flatten data это val data = sc.parallelize(Seq("foo"->3, "foo"->1,...
5599 просмотров
schedule 16.05.2023

Spark выдает исключение NullPointerException в JdbcRDD в кластере с двумя рабочими процессами.
Я запускаю искровой кластер с двумя рабочими, каждый по 60 ГБ. Я написал ниже код для JdbcRDD. String sql = "SELECT * FROM( SELECT ROW_NUMBER() OVER(ORDER BY (SELECT 1)) AS Row,"+ " * FROM [Table_1]) A WHERE Row >= ? AND...
1879 просмотров
schedule 29.08.2022

Схема из SchemaRDD?
Учитывая SchemaRDD (загружается с использованием SQLContext.parquetFile ), как извлечь его метаданные/схему/список столбцов?
204 просмотров
schedule 19.04.2024

Spark: эффективный способ проверить, пуст ли RDD
В RDD нет метода isEmpty , так каков наиболее эффективный способ тестирования, если RDD пуст?
29489 просмотров
schedule 21.07.2022

Что такое зависимость RDD в Spark?
Насколько мне известно, существует два типа зависимостей: узкая и широкая . Но я не понимаю, как зависимость влияет на дочерний RDD . Является ли дочерний RDD только метаданными, содержащими информацию о том, как создавать новые блоки RDD из...
4855 просмотров
schedule 29.03.2023

Ошибка при запуске Spark в экземпляре облака Google
Я запускаю отдельное приложение с использованием Apache Spark, и когда я загружаю все свои данные в RDD в виде текстового файла, я получаю следующую ошибку: 15/02/27 20:34:40 ERROR Utils: Uncaught exception in thread stdout writer for python...
806 просмотров

Как получить доступ к карте, измененной в RDD, в программе драйвера Apache Spark?
Нужна помощь. Я работаю над Apache Spark 1.2.0. У меня есть требование, или, скорее, я должен сказать, что застрял в каком-то вопросе. Это как :- Я запускаю функцию карты в RDD, в которой я создаю несколько экземпляров объекта и сохраняю эти...
118 просмотров
schedule 26.03.2023

Сериализация и настраиваемый класс Spark RDD
Я пишу собственную реализацию Spark RDD на Scala и отлаживаю свою реализацию с помощью оболочки Spark. Моя цель на данный момент - получить: customRDD.count чтобы добиться успеха без исключения. Прямо сейчас я получаю следующее:...
6564 просмотров
schedule 15.03.2023

Spark SQL — обработка SQL-скриптов
Я новичок в Spark и хотел бы знать, есть ли возможность передать Spark скрипт SQL для обработки. Моя цель состоит в том, чтобы перенести данные из mysql через jdbc и Cassandra в Spark и передать файл сценария SQL без необходимости его изменения или...
713 просмотров
schedule 24.01.2023

Spark — Prediction.io — scala.MatchError: null
Я работаю над шаблоном для prediction.io и у меня возникли проблемы со Spark. Я продолжаю получать ошибку scala.MatchError : полная суть здесь scala.MatchError: null at...
549 просмотров

Сериализация задач Apache Spark
Этот метод дает мне ошибку сериализации задачи: def singleItemPrediction(userid : Int, item : Int) = { val userAndItems = useritemrating.filter({x => x._1 == userid && x._2 != item}) val userMean =...
93 просмотров
schedule 04.05.2024

Данные в памяти для RDD
Я использую Spark, и мне интересно, как именно работают RDD. Я понимаю, что RDD - это указатель на данные. Если я пытаюсь создать RDD для файла HDFS, я понимаю, что RDD будет указателем на фактические данные в файле HDFS. Чего я не понимаю, так...
251 просмотров
schedule 10.01.2023

Вычисление средних значений для каждого KEY в парном (K, V) RDD в Spark с Python
Я хочу поделиться этим конкретным решением Apache Spark с Python, потому что документация для него довольно плохая. Я хотел рассчитать среднее значение пар K/V (хранящихся в Pairwise RDD) по KEY. Вот как выглядят данные примера: >>>...
36243 просмотров
schedule 02.01.2023

Spark текстовое поле JSON для RDD
У меня есть таблица cassandra с полем типа text с именем snapshot, содержащим объекты JSON: [identifier, timestamp, snapshot] Я понял, что для того, чтобы иметь возможность выполнять преобразования в этом поле с помощью Spark, мне нужно...
22408 просмотров
schedule 15.07.2023

сложное соединение в искре: элементы rdd имеют много пар ключ-значение
Я новичок в искре и пытаюсь найти способ интегрировать информацию из одного rdd в другой, но их структуры не поддаются стандартной функции соединения. У меня на rdd такого формата: [{a:a1, b:b1, c:[1,2,3,4], d:d1}, {a:a2, b:b2, c:[5,6,7,8],...
1127 просмотров
schedule 06.12.2022

Как поэлементно объединить два RDD
Предположим, у меня есть два RDD, например первый 1 2 3 4 5 второй 6 7 8 9 10 Новый RDD будет 1 6 2 7 3 8 4 9 5 10 Итак, это в основном поэлементное слияние... Мы предполагаем, что два RDD имеют одинаковый размер.
1056 просмотров
schedule 02.06.2023