Статьи по тематике databricks

Публикации по теме 'databricks'

Демистификация блоков данных

Введение в Databricks для начинающих Что такое Databricks? Databricks — это реализация Apache Spark. С полностью управляемыми кластерами Spark он используется для обработки больших рабочих нагрузок данных, а также помогает в обработке данных, изучении данных, а также визуализации данных. Databricks предоставляет платформу, которую можно использовать для выполнения всех типов вычислений с данными высокого качества. Терминология Databricks: Ноутбуки: Блокнот — это место, где..

Вопросы по теме 'databricks'

Установите python CV2 на искровой кластер (блоки данных)

Я хочу установить библиотеку pythons CV2 в искровом кластере, используя версию сообщества databricks, и я собираюсь: workspace-> create -> library, как обычная процедура, а затем выбираю python в выпадающем списке Language, но в «пакете PyPi»...

1114 просмотров

29.08.2023

Запись Spark RDD в виде текстового файла в корзину S3

Я пытаюсь сохранить Spark RDD в виде текстового файла gzip (или нескольких текстовых файлов) в корзину S3. Ведро S3 подключено к dbfs. Я пытаюсь сохранить файл, используя следующее: rddDataset.saveAsTextFile("/mnt/mymount/myfolder/") Но при...

1311 просмотров

apache-spark databricks scala rdd spark-dataframe

22.06.2022

Spark 2.0.0 усекает таблицу Redshift с помощью jdbc

Здравствуйте, я использую Spark SQL (2.0.0) с Redshift, где я хочу обрезать свои таблицы. Я использую этот пакет spark-redshift и хочу знать, как я могу обрезать свою таблицу. Может ли кто-нибудь поделиться примером этого ??

1753 просмотров

apache-spark databricks apache-spark-sql amazon-redshift

28.07.2023

Как запустить основной метод из Spark (в Databricks)

Я создал простой код Scala: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object app2 { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple...

2024 просмотров

jar apache-spark databricks scala

20.04.2022

Databricks Spark-Redshift: ключи сортировки не работают

Я пытаюсь добавить ключи сортировки из кода scala, следуя инструкциям здесь: https://github.com/databricks/spark-redshift df.write .format(formatRS) .option("url", connString) .option("jdbcdriver", jdbcDriverRS) .option("dbtable",...

226 просмотров

apache-spark databricks scala amazon-redshift

16.04.2024

Spark CosmosDB Sink: org.apache.spark.sql.AnalysisException: «запись» не может быть вызвана для потокового набора данных/DataFrame

Я читаю поток данных из концентратора событий в Spark (используя Databricks). Моя цель — иметь возможность записывать потоковые данные в CosmosDB. Однако я получаю следующую ошибку: org.apache.spark.sql.AnalysisException: «запись» не может быть...

548 просмотров

azure azure-cosmosdb databricks spark-streaming scala

12.02.2023

Хранилище озера данных Azure как ВНЕШНЯЯ ТАБЛИЦА в Databricks

Как я могу создать ВНЕШНЮЮ ТАБЛИЦУ в Azure Databricks, которая читает из Azure Data Lake Store? Мне трудно увидеть в документации, возможно ли это. У меня есть набор файлов CSV в определенной папке в хранилище озера данных Azure, и я хочу создать...

2520 просмотров

azure azure-data-lake azure-storage databricks

11.07.2023

Каталог данных AWS Glue в качестве хранилища метаданных для внешних сервисов, таких как Databricks

Допустим, данные находятся на AWS. Использование S3 в качестве хранилища и Glue в качестве каталога данных. Итак, мы можем легко использовать athena, redshift или EMR для запроса данных на S3, используя Glue в качестве хранилища метаданных. У...

1218 просмотров

amazon-s3 databricks aws-glue hive-metastore data-lake

05.11.2022

Не удалось выполнить пользовательскую функцию ($anonfun$createTransformFunc$1: (string) =› array‹string›

Я создал DataFrame, как показано ниже. resultWithId = production_df.withColumn("id", monotonically_increasing_id()) resultWithId.show(5, truncate=False) resultWithId.printSchema() Результат:...

776 просмотров

regex apache-spark pyspark databricks countvectorizer

26.09.2022

Auto_termination Databricks установлено на 60 минут, и моя работа не выполняется

У меня есть записная книжка, созданная с помощью блоков данных, и я хотел бы выполнять это задание по запросу из AWS Lambda. То есть, когда файл поступает в мою корзину S3, я хотел бы запустить задание записной книжки Databricks для моей цели ETL....

168 просмотров

amazon-web-services aws-lambda databricks

06.03.2022

PySpark — сохранение таблицы кустов — org.apache.spark.SparkException: не удается распознать строку типа куста

Я сохраняю фрейм данных искры в таблицу кустов. Фрейм данных spark представляет собой вложенную структуру данных json. Я могу сохранить фрейм данных в виде файлов, но он терпит неудачу в тот момент, когда он создает поверх него таблицу кустов,...

1581 просмотров

pyspark databricks apache-spark-2.0

16.08.2023

Ссылайтесь на sqlContext как на глобальную переменную

Я создал объект, как показано ниже: class Pivot: def __init__(self, pivot_name): global sqlContext self._df = sqlContext.table(pivot_name) В Databricks я упаковал этот код в .egg, прикрепил его к моему кластеру, затем из...

11 просмотров

python-3.x apache-spark databricks

09.08.2022

Как я могу использовать NiFi для чтения / записи напрямую из ADLS без HDInsight

Мы хотели бы использовать NiFi для подключения к ADLS (с использованием PutHDFS и FetchHDFS) без необходимости установки HDInsight. Впоследствии мы хотим использовать Azure DataBricks для запуска заданий Spark и надеемся, что это можно будет сделать...

1375 просмотров

azure-data-lake databricks azure-hdinsight apache-nifi

14.10.2022

Spark - Как получить последний час в пути S3?

Я использую блокнот Databricks со Spark и Scala для чтения данных из S3 в DataFrame: myDf = spark.read.parquet(s"s3a://data/metrics/*/*/*/) . где * подстановочных знака представляют год/месяц/день. Или я просто жестко запрограммировал это:...

143 просмотров

amazon-s3 apache-spark databricks scala

05.06.2022

Интеграция Databricks и GitHub, автоматическое добавление всех записных книжек в репозиторий

Я пытаюсь настроить интеграцию GitHub для Databricks . У нас есть сотни записных книжек, и было бы утомительно добавлять каждую записную книжку вручную в репозиторий. Есть ли способ автоматически зафиксировать и отправить все записные книжки из...

3988 просмотров

git github databricks automation

19.02.2022

Как заменить пробел запятой в Spark (с помощью Scala)?

У меня есть такой файл журнала. Я хочу создать DataFrame в Scala. 2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 0.001048 0.001337 200 200 0 57 "GET https://www.example.com:443/ HTTP/1.1" "curl/7.38.0"...

1403 просмотров

apache-spark databricks apache-spark-sql scala

22.12.2022

Преобразование StructType в схему Avro, возвращает тип как Union при использовании блоков данных spark-avro

Я использую блоки данных spark-avro для преобразования схемы данных в схему avro. Возвращенная схема avro не имеет значения по умолчанию. Это вызывает проблемы, когда я пытаюсь создать общую запись из схемы. Может ли кто-нибудь помочь с правильным...

1844 просмотров

schema databricks apache-spark-sql avro spark-avro

24.12.2022

AttributeError: объект 'NoneType' не имеет атрибута '_jvm - PySpark UDF

У меня есть данные о подписках на журналы и о том, когда они были созданы, а также столбец, содержащий массив всех дат истечения срока подписки, связанных с данным пользователем: user_id created_date...

4540 просмотров

python apache-spark pyspark databricks user-defined-functions

05.07.2023

Дельта-таблица Databricks и транзакционная таблица Hive

Я видел из двух источников, что прямо сейчас вы не можете сколько-нибудь значимо взаимодействовать с транзакционными таблицами HIVE от Spark. КИСЛОТА Улья Hive Transactional Таблицы не читаются Spark Я вижу, что Databricks выпустила...

3053 просмотров

apache-spark delta-lake databricks hive

09.12.2022

spark.conf.set с SparkR

У меня есть кластер Databricks, работающий в Azure, и мне нужны данные для чтения и записи из Azure Data Lake Storage с использованием SparkR / sparklyr . Поэтому я настроил два ресурса . Теперь мне нужно предоставить среде Spark необходимые...

791 просмотров

azure apache-spark azure-databricks databricks sparkr

07.06.2023

Публикации по теме 'databricks'

Демистификация блоков данных

Вопросы по теме 'databricks'

Похожие вопросы