Статьи по тематике delta-lake

Публикации по теме 'delta-lake'

Как подключить Azure Data Lake Gen 2 или хранилище BLOB-объектов Azure к Azure Databricks

Хранилище BLOB-объектов Azure — это служба хранения, предоставляемая Microsoft Azure, которая используется для хранения больших объемов неструктурированных объектных данных, таких как текстовые или двоичные данные. Хранилище BLOB-объектов можно использовать для предоставления данных всему миру или для хранения данных приложений в частном порядке. Azure Data Lake Storage Gen2 (также известное как ADLS Gen2) — это решение озера данных нового поколения для аналитики больших данных...

Вопросы по теме 'delta-lake'

Дельта-таблица Databricks и транзакционная таблица Hive

Я видел из двух источников, что прямо сейчас вы не можете сколько-нибудь значимо взаимодействовать с транзакционными таблицами HIVE от Spark. КИСЛОТА Улья Hive Transactional Таблицы не читаются Spark Я вижу, что Databricks выпустила...

3053 просмотров

09.12.2022

Проблемы при записи данных в Delta Lake в блоках данных Azure (обнаружен несовместимый формат)

Мне нужно прочитать набор данных в DataFrame, а затем записать данные в Delta Lake. Но у меня есть следующее исключение: AnalysisException: 'Incompatible format detected.\n\nYou are trying to write to...

6120 просмотров

delta-lake azure-databricks databricks

29.04.2022

Записать в CSV-файл из таблицы deltalake в Databricks

Как мне записать содержимое таблицы deltalake в файл csv в Azure databricks? Есть ли способ, при котором мне не нужно сначала выгружать содержимое в фрейм данных? https://docs.databricks.com/delta/delta-batch.html

712 просмотров

delta-lake azure-databricks

12.06.2024

Эффективное выполнение на фреймах данных PySpark/Delta

Используя озера pyspark/Delta на Databricks, у меня есть следующий сценарий: sdf = spark.read.format("delta").table("...") result = sdf.filter(...).groupBy(...).agg(...) analysis_1 = result.groupBy(...).count() # transformation performed here...

194 просмотров

delta-lake databricks apache-spark-sql

11.02.2023

Исключение в основном потоке java.lang.NoSuchMethodError: com.fasterxml.jackson.module.scala.experimental.ScalaObjectMapper

Исключение в потоке "main" java.lang.NoSuchMethodError: com.fasterxml.jackson.module.scala.experimental.ScalaObjectMapper. $ Init $ (Lcom / fastxml / jackson / module / scala / экспериментальный / ScalaObjectMapper;) V Пока пытаюсь записать df как...

56 просмотров

apache-spark delta-lake scala

01.04.2022

Как использовать Delta Lake с искровой раковиной?

Я пытаюсь писать как Spark DF как DeltaTable. Он отлично работает в моей IDE Intelliji , но с теми же зависимостями и версиями он не работает в моей Spark REPL (оболочке Spark) Версия Spark: 2.4.0 Версия Scala: 2.11.8 Зависимости в Intelliji...

2706 просмотров

apache-spark delta-lake

18.05.2022

дельта-таблицы в Azure HDInsight с хранилищем BLOB-объектов Azure

Я пытаюсь написать дельта-таблицу из HDInsight Spark 2.4. Я настроил свою работу, следуя https://docs.delta.io/latest/delta-storage.html#configure-for-azure-blob-storage У меня есть следующий код...

389 просмотров

apache-spark delta-lake azure-databricks databricks azure-hdinsight

19.05.2022

Странные запросы на поиск _delta_log при использовании пользовательского формата FileFormat в блоках данных

Я наблюдаю очень странные запросы, выдаваемые блоками данных при использовании пользовательского формата файла. Мне нужно реализовать собственный FileFormat для чтения двоичных файлов в spark sql. Я реализовал класс FileFormat (в основном это...

110 просмотров

delta-lake databricks apache-spark-sql

21.08.2022

Apache Spark 3 и обратная совместимость?

У нас есть несколько работающих приложений Spark, разработанных с использованием Spark 2.4.1 (Scala 2.11.12). Для нескольких наших новых заданий Spark мы рассматриваем возможность использования функций DeltaLake. Для этого нам нужно использовать...

1928 просмотров

apache-spark delta-lake scala

06.01.2024

Обновление массива структур — Spark

У меня есть следующая структура таблицы дельта искры, +---+------------------------------------------------------+ |id |addresses | +---+------------------------------------------------------+ |1...

678 просмотров

sql apache-spark delta-lake databricks apache-spark-sql

18.12.2022

Слияние с дельта-таблицей не работает с java foreachbatch

Я создал дельта-таблицу и теперь пытаюсь вставить данные в эту таблицу с помощью foreachBatch (). Я следил за этим пример . Единственная разница в том, что я использую Java, а не в записной книжке, но, полагаю, это не должно иметь никакого...

443 просмотров

java apache-spark delta-lake spark-structured-streaming

12.08.2022

Эффективное чтение / преобразование секционированных данных в дельта-озере

У меня есть данные в дельте озера в ADLS, и я читаю их через Databricks. Данные разделены по году и дате, а z упорядочены по storeIdNum, где имеется около 10 идентификаторов магазинов, каждый из которых содержит несколько миллионов строк на дату....

513 просмотров

apache-spark pyspark delta-lake apache-spark-sql

10.08.2022

Прочитать путь к файлу из темы Kafka, а затем прочитать файл и записать в DeltaLake в структурированной потоковой передаче

У меня есть случай использования, когда путь к файлу json-записей, хранящихся в s3, поступает как сообщение kafka в kafka. Мне нужно обработать данные с помощью искровой структурированной потоковой передачи. Дизайн, который я подумал, выглядит...

118 просмотров

apache-kafka apache-spark delta-lake spark-structured-streaming

24.02.2022

google dataproc - образ версии 2.0.x как понизить версию pyspark до 3.0.1

Использование образа dataproc версии 2.0.x в облаке Google, поскольку в этой версии образа dataproc доступна дельта 0.7.0. Однако этот экземпляр dataproc поставляется с pyspark 3.1.1 по умолчанию, Apache Spark 3.1.1 еще официально не выпущен. Таким...

241 просмотров

google-cloud-dataproc apache-spark pyspark delta-lake

14.05.2022

Дельта-таблицы Databricks - где они обычно хранятся?

Я начинаю свое путешествие в дельта-таблицы, и одна вещь, которая все еще меня смущает, - это лучшее место для сохранения дельта-таблиц, если вам понадобится запросить их позже. Например, я переношу несколько таблиц из локальных блоков данных в...

76 просмотров

delta-lake azure-databricks databricks

22.02.2023

Вставить или обновить дельта-таблицу из фрейма данных в Pyspark

В настоящее время у меня есть фрейм данных pyspark, из которого я изначально создал дельта-таблицу, используя приведенный ниже код - df.write.format("delta").saveAsTable("events") Теперь, поскольку приведенный выше фрейм...

1425 просмотров

apache-spark pyspark delta-lake

24.05.2022

Я получаю сообщение об ошибке Невозможно перейти в таблицу дельты перемещения во времени до версии X, тогда как я вижу версию X при просмотре истории в Azure Databricks.

У меня есть таблица в дельте озера со следующими tblproperties: Я пытаюсь получить доступ к версии, которая была там в прошлом месяце, 322. Когда я смотрю на историю, я вижу ее: Но когда я пытаюсь получить к нему доступ с помощью такой...

143 просмотров

azure delta-lake azure-databricks databricks

21.04.2022

Неописательная ошибка Spark в DELTA MERGE

Я использую Spark 3.1 в Databricks (Databricks Runtime 8) с очень большим кластером (25 рабочих с 112 ГБ памяти и 16 ядер каждый) для репликации нескольких таблиц SAP в хранилище озера данных Azure (ADLS gen2). Для этого инструмент записывает дельты...

82 просмотров

azure apache-spark delta-lake azure-databricks databricks

03.07.2023

delta (OSS) + MERGE воссоздает базовые файлы паркета, хотя во входящих данных нет изменений

Я использую дельту (OSS - версия 0.7.0 с pyspark 3.0.1), и таблица модифицируется (объединяется) каждые 5 минут - сценарий microbatch pyspark. Когда я запускаю в первый раз, он создал 18 небольших файлов (numTargetRowsInserted -> 32560), и я...

46 просмотров

delta-lake

29.12.2022

Apache Spark/Azure Data Lake Storage — обработать файл ровно один раз, пометить файл как обработанный

У меня есть контейнер Azure Data Lake Storage, который служит целевой областью для файлов JSON для обработки Apache Spark. Там десятки тысяч маленьких (до нескольких мегабайт) файлов. Код Spark регулярно читает эти файлы и выполняет некоторые...

55 просмотров

apache-spark azure-data-lake delta-lake

10.07.2022

Публикации по теме 'delta-lake'

Как подключить Azure Data Lake Gen 2 или хранилище BLOB-объектов Azure к Azure Databricks

Вопросы по теме 'delta-lake'

Похожие вопросы