Вопросы по теме 'apache-spark-2.0'

Ошибка Spark 2.0.0: PartitioningCollection требует, чтобы все его разделы имели одинаковые numPartitions
Я объединяю несколько DataFrames в Spark и продолжаю получать следующую ошибку: PartitioningCollection requires all of its partitionings have the same numPartitions. Кажется, это происходит после того, как я объединяю два DataFrame вместе,...
1502 просмотров

Ошибка компиляции spark mvn. [ОШИБКА] Не удалось выполнить цель org.apache.maven.plugins: maven-compiler-plugin: 3.1: компиляция (компиляция по умолчанию)
Я учусь, обратитесь к книге "Искры с машинным обучением" groupId: org.apache.spark artifactId: spark-core_2.11 версия: 2.0.1 JavaApp.java import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import...
428 просмотров
schedule 18.04.2022

Spark2 Набор данных Java Sql
Попытка запустить JavaSparkSQLExample в Spark2. используя spark-core_2.11-2.0.2 и spark-sql_2.11-2.0.2. Ошибка: The method createGlobalTempView(String) is undefined for the type Dataset<Row>. На самом деле в последних документах API...
142 просмотров

Spark 2.0 ALS Рекомендация, как рекомендовать пользователю
Я следовал руководству, указанному в ссылке http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Но это устарело, так как использует подход Spark Mlib RDD. В New Spark 2.0 используется подход DataFrame. Теперь...
4060 просмотров

Как запустить несколько экземпляров Spark 2.0 одновременно (в нескольких ноутбуках Jupyter)?
У меня есть скрипт, который позволяет мне использовать Spark в Jupyter Notebook. Это здорово, за исключением случаев, когда я запускаю команды spark во втором ноутбуке (например, чтобы проверить некоторые наброски). Я получаю очень длинное...
1679 просмотров

Схема для типа Any не поддерживается
Я пытаюсь создать искровую UDF для извлечения карты пар (ключ, значение) из определенного пользователем класса case. Функция scala работает нормально, но когда я пытаюсь преобразовать ее в UDF в spark2.0, я сталкиваюсь с ошибкой «Схема для типа Any...
7051 просмотров

Как установить Apache Toree на Mac OS X с установленным Spark через Homebrew?
Apache Toree ищет домашний каталог spark (по умолчанию «/usr/local/spark», но когда он не может найти каталог из-за того, что spark был установлен через Homebrew, выдается исключение. jupyter toree install FileNotFoundError: [Errno 2] No such...
1332 просмотров

Поиск и замена в Apache Spark
Мы создали два набора данных, предложениеDataFrame, предложениеDataFrame2, где должна произойти замена поиска. предложениеDataFrame2 хранит условия поиска и замены. Мы также выполнили все 11 типов соединений: «внутреннее», «внешнее», «полное»,...
615 просмотров

Как применить FP-Growth к набору данных после groupBy?
Я хотел бы использовать FP-Growth из Spark MLlib в Spark 2.1. Мои данные имеют только два столбца item_group и item . Я пробовал следующее, но это не работает: sc = SparkSession.builder.appName("Assoziationsanalyse").getOrCreate()...
609 просмотров

Повторное использование скриптов в spark-shell
Я использую искру со scala для анализа временных рядов. Я пишу одни и те же сценарии в искровой оболочке каждый раз, когда закрываю и открываю. Я хотел бы, чтобы мне предложили, как сохранить мои скрипты из spark-shell и использовать их позже....
661 просмотров
schedule 26.03.2024

Как записать данные в таблицу Hive?
Я использую Спарк 2.0.2. Изучая концепцию записи набора данных в таблицу Hive, я понял, что мы делаем это двумя способами: используя sparkSession.sql("ваш запрос sql") dataframe.write.mode(SaveMode."тип режима").insertInto("tableName")...
159 просмотров
schedule 06.02.2023

Можем ли мы использовать объект искрового сеанса без его явного создания, если отправить задание с помощью spark-submit
Мой вопрос очень простой, мой код работает нормально. Но мне не ясны эти два момента: 1) когда мы отправляем любое задание pyspark с помощью spark-submit, нужно ли нам создавать объект сеанса spark, подобный этому? в моем сценарии: from...
1395 просмотров

Apache Spark с Java, преобразование в тип даты из Varchar2 в Oracle не удается
У меня есть вариант использования, когда я хочу прочитать данные из одной таблицы Oracle, где все поля имеют тип varchar, и сохранить их в другой таблице Oracle с аналогичными полями, но с идеально правильным типом данных. Это нужно делать только в...
699 просмотров

Apache Spark 2.1 — атрибуты Scala Longy/Heavy для объекта Row
Мы написали искровое приложение на Scala 2.11, которое работает на автономном кластере Spark 2.1.0. Согласно дизайну/требованиям, мы построили объект строки, имеющий много прямых столбцов, таких как 100, и есть несколько вложенных столбцов, где...
78 просмотров

Как использовать настраиваемый типобезопасный агрегатор в Spark SQL
В документации Spark описывается, как создать обе нетипизированная пользовательская агрегатная функция ( code ) (он же udaf) и агрегатор со строгой типизацией ( код ) (он же подкласс org.apache.spark.sql.expressions.Aggregator ). Я знаю, что...
457 просмотров

PySpark — сохранение таблицы кустов — org.apache.spark.SparkException: не удается распознать строку типа куста
Я сохраняю фрейм данных искры в таблицу кустов. Фрейм данных spark представляет собой вложенную структуру данных json. Я могу сохранить фрейм данных в виде файлов, но он терпит неудачу в тот момент, когда он создает поверх него таблицу кустов,...
1581 просмотров
schedule 16.08.2023

Добавить новую подогнанную стадию в существующую PipelineModel без повторной подгонки
Я хотел бы объединить несколько обученных конвейеров в один, который похож на " Spark добавляет новую подогнанную стадию в существующую PipelineModel без повторной подгонки ", однако приведенное ниже решение предназначено для PySpark. >...
1107 просмотров

В Spark задача выполняется только на одном исполнителе
Я запускаю код под искрой, используя Java. Код Test.java package com.sample; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import...
6155 просмотров

Не удалось загрузить DF в elasticsearch
Я читаю файл паркета в spark-scala и выполняю вычисления и фильтрацию. Я хочу передать полученный фрейм данных в elasticsearch. Я пробовал следовать https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark-sql , но не смог...
711 просмотров

Как распространять jar JDBC в кластере Cloudera?
Я только что установил новый Spark 2.4 из CSD в свой кластер CDH (28 узлов) и пытаюсь установить драйвер JDBC , чтобы читать данные из базы данных из блокнота Jupyter. Я скачал и скопировал его на одном узле в папку /jars, однако похоже, что...
205 просмотров