Публикации по теме 'databricks'


Демистификация блоков данных
Введение в Databricks для начинающих Что такое Databricks? Databricks — это реализация Apache Spark. С полностью управляемыми кластерами Spark он используется для обработки больших рабочих нагрузок данных, а также помогает в обработке данных, изучении данных, а также визуализации данных. Databricks предоставляет платформу, которую можно использовать для выполнения всех типов вычислений с данными высокого качества. Терминология Databricks: Ноутбуки: Блокнот — это место, где..

Вопросы по теме 'databricks'

Установите python CV2 на искровой кластер (блоки данных)
Я хочу установить библиотеку pythons CV2 в искровом кластере, используя версию сообщества databricks, и я собираюсь: workspace-> create -> library, как обычная процедура, а затем выбираю python в выпадающем списке Language, но в «пакете PyPi»...
1114 просмотров

Запись Spark RDD в виде текстового файла в корзину S3
Я пытаюсь сохранить Spark RDD в виде текстового файла gzip (или нескольких текстовых файлов) в корзину S3. Ведро S3 подключено к dbfs. Я пытаюсь сохранить файл, используя следующее: rddDataset.saveAsTextFile("/mnt/mymount/myfolder/") Но при...
1311 просмотров

Spark 2.0.0 усекает таблицу Redshift с помощью jdbc
Здравствуйте, я использую Spark SQL (2.0.0) с Redshift, где я хочу обрезать свои таблицы. Я использую этот пакет spark-redshift и хочу знать, как я могу обрезать свою таблицу. Может ли кто-нибудь поделиться примером этого ??
1753 просмотров

Как запустить основной метод из Spark (в Databricks)
Я создал простой код Scala: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object app2 { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Simple...
2024 просмотров
schedule 20.04.2022

Databricks Spark-Redshift: ключи сортировки не работают
Я пытаюсь добавить ключи сортировки из кода scala, следуя инструкциям здесь: https://github.com/databricks/spark-redshift df.write .format(formatRS) .option("url", connString) .option("jdbcdriver", jdbcDriverRS) .option("dbtable",...
226 просмотров

Spark CosmosDB Sink: org.apache.spark.sql.AnalysisException: «запись» не может быть вызвана для потокового набора данных/DataFrame
Я читаю поток данных из концентратора событий в Spark (используя Databricks). Моя цель — иметь возможность записывать потоковые данные в CosmosDB. Однако я получаю следующую ошибку: org.apache.spark.sql.AnalysisException: «запись» не может быть...
548 просмотров

Хранилище озера данных Azure как ВНЕШНЯЯ ТАБЛИЦА в Databricks
Как я могу создать ВНЕШНЮЮ ТАБЛИЦУ в Azure Databricks, которая читает из Azure Data Lake Store? Мне трудно увидеть в документации, возможно ли это. У меня есть набор файлов CSV в определенной папке в хранилище озера данных Azure, и я хочу создать...
2520 просмотров

Каталог данных AWS Glue в качестве хранилища метаданных для внешних сервисов, таких как Databricks
Допустим, данные находятся на AWS. Использование S3 в качестве хранилища и Glue в качестве каталога данных. Итак, мы можем легко использовать athena, redshift или EMR для запроса данных на S3, используя Glue в качестве хранилища метаданных. У...
1218 просмотров

Не удалось выполнить пользовательскую функцию ($anonfun$createTransformFunc$1: (string) =› array‹string›
Я создал DataFrame, как показано ниже. resultWithId = production_df.withColumn("id", monotonically_increasing_id()) resultWithId.show(5, truncate=False) resultWithId.printSchema() Результат:...
776 просмотров

Auto_termination Databricks установлено на 60 минут, и моя работа не выполняется
У меня есть записная книжка, созданная с помощью блоков данных, и я хотел бы выполнять это задание по запросу из AWS Lambda. То есть, когда файл поступает в мою корзину S3, я хотел бы запустить задание записной книжки Databricks для моей цели ETL....
168 просмотров

PySpark — сохранение таблицы кустов — org.apache.spark.SparkException: не удается распознать строку типа куста
Я сохраняю фрейм данных искры в таблицу кустов. Фрейм данных spark представляет собой вложенную структуру данных json. Я могу сохранить фрейм данных в виде файлов, но он терпит неудачу в тот момент, когда он создает поверх него таблицу кустов,...
1581 просмотров
schedule 16.08.2023

Ссылайтесь на sqlContext как на глобальную переменную
Я создал объект, как показано ниже: class Pivot: def __init__(self, pivot_name): global sqlContext self._df = sqlContext.table(pivot_name) В Databricks я упаковал этот код в .egg, прикрепил его к моему кластеру, затем из...
11 просмотров
schedule 09.08.2022

Как я могу использовать NiFi для чтения / записи напрямую из ADLS без HDInsight
Мы хотели бы использовать NiFi для подключения к ADLS (с использованием PutHDFS и FetchHDFS) без необходимости установки HDInsight. Впоследствии мы хотим использовать Azure DataBricks для запуска заданий Spark и надеемся, что это можно будет сделать...
1375 просмотров

Spark - Как получить последний час в пути S3?
Я использую блокнот Databricks со Spark и Scala для чтения данных из S3 в DataFrame: myDf = spark.read.parquet(s"s3a://data/metrics/*/*/*/) . где * подстановочных знака представляют год/месяц/день. Или я просто жестко запрограммировал это:...
143 просмотров
schedule 05.06.2022

Интеграция Databricks и GitHub, автоматическое добавление всех записных книжек в репозиторий
Я пытаюсь настроить интеграцию GitHub для Databricks . У нас есть сотни записных книжек, и было бы утомительно добавлять каждую записную книжку вручную в репозиторий. Есть ли способ автоматически зафиксировать и отправить все записные книжки из...
3988 просмотров
schedule 19.02.2022

Как заменить пробел запятой в Spark (с помощью Scala)?
У меня есть такой файл журнала. Я хочу создать DataFrame в Scala. 2015-05-13T23:39:43.945958Z my-loadbalancer 192.168.131.39:2817 10.0.0.1:80 0.000086 0.001048 0.001337 200 200 0 57 "GET https://www.example.com:443/ HTTP/1.1" "curl/7.38.0"...
1403 просмотров

Преобразование StructType в схему Avro, возвращает тип как Union при использовании блоков данных spark-avro
Я использую блоки данных spark-avro для преобразования схемы данных в схему avro. Возвращенная схема avro не имеет значения по умолчанию. Это вызывает проблемы, когда я пытаюсь создать общую запись из схемы. Может ли кто-нибудь помочь с правильным...
1844 просмотров

AttributeError: объект 'NoneType' не имеет атрибута '_jvm - PySpark UDF
У меня есть данные о подписках на журналы и о том, когда они были созданы, а также столбец, содержащий массив всех дат истечения срока подписки, связанных с данным пользователем: user_id created_date...
4540 просмотров

Дельта-таблица Databricks и транзакционная таблица Hive
Я видел из двух источников, что прямо сейчас вы не можете сколько-нибудь значимо взаимодействовать с транзакционными таблицами HIVE от Spark. КИСЛОТА Улья Hive Transactional Таблицы не читаются Spark Я вижу, что Databricks выпустила...
3053 просмотров
schedule 09.12.2022

spark.conf.set с SparkR
У меня есть кластер Databricks, работающий в Azure, и мне нужны данные для чтения и записи из Azure Data Lake Storage с использованием SparkR / sparklyr . Поэтому я настроил два ресурса . Теперь мне нужно предоставить среде Spark необходимые...
791 просмотров