Вопросы по теме 'rdd'
путаница в понимании передачи параметра в scala
Два метода groupBy в Spark RDD объявлены как:
def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])]
def groupBy[K](f: T => K, numPartitions: Int)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])]
Я определяю функцию...
754 просмотров
schedule
06.04.2022
В чем разница между кешированием и сохранением?
Что касается RDD настойчивости, каковы различия между cache() и persist() в искре?
121791 просмотров
schedule
24.02.2022
Ошибка Spark: недостаточно места для кэширования раздела rdd_8_2 в памяти! Свободная память 58905314 байт
Когда я запускаю задание Spark, используя его пример кода BinaryClassification.scala с моими собственными данными, оно всегда показывает такие ошибки, как «Недостаточно места для кэширования раздела rdd_8_2 в памяти! Свободная память составляет...
15424 просмотров
schedule
05.11.2023
Spark RDD с общими указателями в каждом разделе (и магическое число 200??)
Я пытаюсь сохранить искровой RDD, в котором все элементы каждого раздела имеют общий доступ к одному большому объекту. Однако этот объект, кажется, сохраняется в памяти несколько раз. Сведение моей проблемы к игрушечному случаю с одним разделом...
575 просмотров
schedule
22.05.2022
возьмите верхние N после groupBy и обработайте их как RDD
Я хотел бы получить верхние элементы N после groupByKey из RDD и преобразовать тип topNPerGroup (ниже) в RDD[(String, Int)] , где значения List[Int] равны flatten
data это
val data = sc.parallelize(Seq("foo"->3, "foo"->1,...
5599 просмотров
schedule
16.05.2023
Spark выдает исключение NullPointerException в JdbcRDD в кластере с двумя рабочими процессами.
Я запускаю искровой кластер с двумя рабочими, каждый по 60 ГБ.
Я написал ниже код для JdbcRDD.
String sql = "SELECT * FROM( SELECT ROW_NUMBER() OVER(ORDER BY (SELECT 1)) AS Row,"+
" * FROM [Table_1]) A WHERE Row >= ? AND...
1879 просмотров
schedule
29.08.2022
Схема из SchemaRDD?
Учитывая SchemaRDD (загружается с использованием SQLContext.parquetFile ), как извлечь его метаданные/схему/список столбцов?
204 просмотров
schedule
19.04.2024
Spark: эффективный способ проверить, пуст ли RDD
В RDD нет метода isEmpty , так каков наиболее эффективный способ тестирования, если RDD пуст?
29489 просмотров
schedule
21.07.2022
Что такое зависимость RDD в Spark?
Насколько мне известно, существует два типа зависимостей: узкая и широкая . Но я не понимаю, как зависимость влияет на дочерний RDD . Является ли дочерний RDD только метаданными, содержащими информацию о том, как создавать новые блоки RDD из...
4855 просмотров
schedule
29.03.2023
Ошибка при запуске Spark в экземпляре облака Google
Я запускаю отдельное приложение с использованием Apache Spark, и когда я загружаю все свои данные в RDD в виде текстового файла, я получаю следующую ошибку:
15/02/27 20:34:40 ERROR Utils: Uncaught exception in thread stdout writer for python...
806 просмотров
schedule
25.04.2023
Как получить доступ к карте, измененной в RDD, в программе драйвера Apache Spark?
Нужна помощь.
Я работаю над Apache Spark 1.2.0. У меня есть требование, или, скорее, я должен сказать, что застрял в каком-то вопросе.
Это как :-
Я запускаю функцию карты в RDD, в которой я создаю несколько экземпляров объекта и сохраняю эти...
118 просмотров
schedule
26.03.2023
Сериализация и настраиваемый класс Spark RDD
Я пишу собственную реализацию Spark RDD на Scala и отлаживаю свою реализацию с помощью оболочки Spark. Моя цель на данный момент - получить:
customRDD.count
чтобы добиться успеха без исключения. Прямо сейчас я получаю следующее:...
6564 просмотров
schedule
15.03.2023
Spark SQL — обработка SQL-скриптов
Я новичок в Spark и хотел бы знать, есть ли возможность передать Spark скрипт SQL для обработки.
Моя цель состоит в том, чтобы перенести данные из mysql через jdbc и Cassandra в Spark и передать файл сценария SQL без необходимости его изменения или...
713 просмотров
schedule
24.01.2023
Spark — Prediction.io — scala.MatchError: null
Я работаю над шаблоном для prediction.io и у меня возникли проблемы со Spark.
Я продолжаю получать ошибку scala.MatchError : полная суть здесь
scala.MatchError: null
at...
549 просмотров
schedule
30.12.2022
Сериализация задач Apache Spark
Этот метод дает мне ошибку сериализации задачи:
def singleItemPrediction(userid : Int, item : Int) = {
val userAndItems = useritemrating.filter({x => x._1 == userid && x._2 != item})
val userMean =...
93 просмотров
schedule
04.05.2024
Данные в памяти для RDD
Я использую Spark, и мне интересно, как именно работают RDD. Я понимаю, что RDD - это указатель на данные. Если я пытаюсь создать RDD для файла HDFS, я понимаю, что RDD будет указателем на фактические данные в файле HDFS.
Чего я не понимаю, так...
251 просмотров
schedule
10.01.2023
Вычисление средних значений для каждого KEY в парном (K, V) RDD в Spark с Python
Я хочу поделиться этим конкретным решением Apache Spark с Python, потому что документация для него довольно плохая.
Я хотел рассчитать среднее значение пар K/V (хранящихся в Pairwise RDD) по KEY. Вот как выглядят данные примера:
>>>...
36243 просмотров
schedule
02.01.2023
Spark текстовое поле JSON для RDD
У меня есть таблица cassandra с полем типа text с именем snapshot, содержащим объекты JSON:
[identifier, timestamp, snapshot]
Я понял, что для того, чтобы иметь возможность выполнять преобразования в этом поле с помощью Spark, мне нужно...
22408 просмотров
schedule
15.07.2023
сложное соединение в искре: элементы rdd имеют много пар ключ-значение
Я новичок в искре и пытаюсь найти способ интегрировать информацию из одного rdd в другой, но их структуры не поддаются стандартной функции соединения.
У меня на rdd такого формата:
[{a:a1, b:b1, c:[1,2,3,4], d:d1},
{a:a2, b:b2, c:[5,6,7,8],...
1127 просмотров
schedule
06.12.2022
Как поэлементно объединить два RDD
Предположим, у меня есть два RDD, например
первый
1
2
3
4
5
второй
6
7
8
9
10
Новый RDD будет
1 6
2 7
3 8
4 9
5 10
Итак, это в основном поэлементное слияние... Мы предполагаем, что два RDD имеют одинаковый размер.
1056 просмотров
schedule
02.06.2023