Статьи по тематике apache-spark-2.0

Вопросы по теме 'apache-spark-2.0'

Ошибка Spark 2.0.0: PartitioningCollection требует, чтобы все его разделы имели одинаковые numPartitions

Я объединяю несколько DataFrames в Spark и продолжаю получать следующую ошибку: PartitioningCollection requires all of its partitionings have the same numPartitions. Кажется, это происходит после того, как я объединяю два DataFrame вместе,...

1502 просмотров

13.05.2023

Ошибка компиляции spark mvn. [ОШИБКА] Не удалось выполнить цель org.apache.maven.plugins: maven-compiler-plugin: 3.1: компиляция (компиляция по умолчанию)

Я учусь, обратитесь к книге "Искры с машинным обучением" groupId: org.apache.spark artifactId: spark-core_2.11 версия: 2.0.1 JavaApp.java import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import...

428 просмотров

java maven apache-spark apache-spark-2.0

18.04.2022

Spark2 Набор данных Java Sql

Попытка запустить JavaSparkSQLExample в Spark2. используя spark-core_2.11-2.0.2 и spark-sql_2.11-2.0.2. Ошибка: The method createGlobalTempView(String) is undefined for the type Dataset<Row>. На самом деле в последних документах API...

142 просмотров

java apache-spark-sql apache-spark-2.0 spark-dataframe

29.01.2023

Spark 2.0 ALS Рекомендация, как рекомендовать пользователю

Я следовал руководству, указанному в ссылке http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Но это устарело, так как использует подход Spark Mlib RDD. В New Spark 2.0 используется подход DataFrame. Теперь...

4060 просмотров

machine-learning apache-spark scala apache-spark-2.0

12.10.2022

Как запустить несколько экземпляров Spark 2.0 одновременно (в нескольких ноутбуках Jupyter)?

У меня есть скрипт, который позволяет мне использовать Spark в Jupyter Notebook. Это здорово, за исключением случаев, когда я запускаю команды spark во втором ноутбуке (например, чтобы проверить некоторые наброски). Я получаю очень длинное...

1679 просмотров

jupyter-notebook pyspark derby apache-spark-2.0

28.11.2022

Схема для типа Any не поддерживается

Я пытаюсь создать искровую UDF для извлечения карты пар (ключ, значение) из определенного пользователем класса case. Функция scala работает нормально, но когда я пытаюсь преобразовать ее в UDF в spark2.0, я сталкиваюсь с ошибкой «Схема для типа Any...

7051 просмотров

apache-spark apache-spark-sql scala apache-spark-2.0 udf

13.06.2023

Как установить Apache Toree на Mac OS X с установленным Spark через Homebrew?

Apache Toree ищет домашний каталог spark (по умолчанию «/usr/local/spark», но когда он не может найти каталог из-за того, что spark был установлен через Homebrew, выдается исключение. jupyter toree install FileNotFoundError: [Errno 2] No such...

1332 просмотров

apache-spark apache-spark-2.0 apache-toree

20.01.2023

Поиск и замена в Apache Spark

Мы создали два набора данных, предложениеDataFrame, предложениеDataFrame2, где должна произойти замена поиска. предложениеDataFrame2 хранит условия поиска и замены. Мы также выполнили все 11 типов соединений: «внутреннее», «внешнее», «полное»,...

615 просмотров

apache-spark apache-spark-sql join apache-spark-dataset apache-spark-2.0

09.02.2023

Как применить FP-Growth к набору данных после groupBy?

Я хотел бы использовать FP-Growth из Spark MLlib в Spark 2.1. Мои данные имеют только два столбца item_group и item . Я пробовал следующее, но это не работает: sc = SparkSession.builder.appName("Assoziationsanalyse").getOrCreate()...

609 просмотров

apache-spark pyspark apache-spark-mllib apache-spark-2.0

24.07.2022

Повторное использование скриптов в spark-shell

Я использую искру со scala для анализа временных рядов. Я пишу одни и те же сценарии в искровой оболочке каждый раз, когда закрываю и открываю. Я хотел бы, чтобы мне предложили, как сохранить мои скрипты из spark-shell и использовать их позже....

661 просмотров

apache-spark scala apache-spark-2.0

26.03.2024

Как записать данные в таблицу Hive?

Я использую Спарк 2.0.2. Изучая концепцию записи набора данных в таблицу Hive, я понял, что мы делаем это двумя способами: используя sparkSession.sql("ваш запрос sql") dataframe.write.mode(SaveMode."тип режима").insertInto("tableName")...

159 просмотров

apache-spark hive apache-spark-2.0

06.02.2023

Можем ли мы использовать объект искрового сеанса без его явного создания, если отправить задание с помощью spark-submit

Мой вопрос очень простой, мой код работает нормально. Но мне не ясны эти два момента: 1) когда мы отправляем любое задание pyspark с помощью spark-submit, нужно ли нам создавать объект сеанса spark, подобный этому? в моем сценарии: from...

1395 просмотров

apache-spark pyspark hive spark-submit apache-spark-2.0

16.07.2023

Apache Spark с Java, преобразование в тип даты из Varchar2 в Oracle не удается

У меня есть вариант использования, когда я хочу прочитать данные из одной таблицы Oracle, где все поля имеют тип varchar, и сохранить их в другой таблице Oracle с аналогичными полями, но с идеально правильным типом данных. Это нужно делать только в...

699 просмотров

java oracle apache-spark apache-spark-sql apache-spark-2.0

20.05.2023

Apache Spark 2.1 — атрибуты Scala Longy/Heavy для объекта Row

Мы написали искровое приложение на Scala 2.11, которое работает на автономном кластере Spark 2.1.0. Согласно дизайну/требованиям, мы построили объект строки, имеющий много прямых столбцов, таких как 100, и есть несколько вложенных столбцов, где...

78 просмотров

parquet apache-spark apache-spark-sql apache-spark-2.0

16.06.2022

Как использовать настраиваемый типобезопасный агрегатор в Spark SQL

В документации Spark описывается, как создать обе нетипизированная пользовательская агрегатная функция ( code ) (он же udaf) и агрегатор со строгой типизацией ( код ) (он же подкласс org.apache.spark.sql.expressions.Aggregator ). Я знаю, что...

457 просмотров

apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

26.08.2023

PySpark — сохранение таблицы кустов — org.apache.spark.SparkException: не удается распознать строку типа куста

Я сохраняю фрейм данных искры в таблицу кустов. Фрейм данных spark представляет собой вложенную структуру данных json. Я могу сохранить фрейм данных в виде файлов, но он терпит неудачу в тот момент, когда он создает поверх него таблицу кустов,...

1581 просмотров

pyspark databricks apache-spark-2.0

16.08.2023

Добавить новую подогнанную стадию в существующую PipelineModel без повторной подгонки

Я хотел бы объединить несколько обученных конвейеров в один, который похож на " Spark добавляет новую подогнанную стадию в существующую PipelineModel без повторной подгонки ", однако приведенное ниже решение предназначено для PySpark. >...

1107 просмотров

apache-spark pipeline apache-spark-ml apache-spark-2.0

18.09.2022

В Spark задача выполняется только на одном исполнителе

Я запускаю код под искрой, используя Java. Код Test.java package com.sample; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import...

6155 просмотров

apache-spark spark-submit apache-spark-2.0

09.06.2022

Не удалось загрузить DF в elasticsearch

Я читаю файл паркета в spark-scala и выполняю вычисления и фильтрацию. Я хочу передать полученный фрейм данных в elasticsearch. Я пробовал следовать https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark-sql , но не смог...

711 просмотров

apache-spark apache-spark-sql apache-spark-2.0

26.06.2023

Как распространять jar JDBC в кластере Cloudera?

Я только что установил новый Spark 2.4 из CSD в свой кластер CDH (28 узлов) и пытаюсь установить драйвер JDBC , чтобы читать данные из базы данных из блокнота Jupyter. Я скачал и скопировал его на одном узле в папку /jars, однако похоже, что...

205 просмотров

apache-spark jdbc cloudera cloudera-cdh apache-spark-2.0

07.09.2023

Вопросы по теме 'apache-spark-2.0'

Похожие вопросы