Публикации по теме 'delta-lake'


Как подключить Azure Data Lake Gen 2 или хранилище BLOB-объектов Azure к Azure Databricks
Хранилище BLOB-объектов Azure — это служба хранения, предоставляемая Microsoft Azure, которая используется для хранения больших объемов неструктурированных объектных данных, таких как текстовые или двоичные данные. Хранилище BLOB-объектов можно использовать для предоставления данных всему миру или для хранения данных приложений в частном порядке. Azure Data Lake Storage Gen2 (также известное как ADLS Gen2) — это решение озера данных нового поколения для аналитики больших данных...

Вопросы по теме 'delta-lake'

Дельта-таблица Databricks и транзакционная таблица Hive
Я видел из двух источников, что прямо сейчас вы не можете сколько-нибудь значимо взаимодействовать с транзакционными таблицами HIVE от Spark. КИСЛОТА Улья Hive Transactional Таблицы не читаются Spark Я вижу, что Databricks выпустила...
3053 просмотров
schedule 09.12.2022

Проблемы при записи данных в Delta Lake в блоках данных Azure (обнаружен несовместимый формат)
Мне нужно прочитать набор данных в DataFrame, а затем записать данные в Delta Lake. Но у меня есть следующее исключение: AnalysisException: 'Incompatible format detected.\n\nYou are trying to write to...
6120 просмотров
schedule 29.04.2022

Записать в CSV-файл из таблицы deltalake в Databricks
Как мне записать содержимое таблицы deltalake в файл csv в Azure databricks? Есть ли способ, при котором мне не нужно сначала выгружать содержимое в фрейм данных? https://docs.databricks.com/delta/delta-batch.html
712 просмотров
schedule 12.06.2024

Эффективное выполнение на фреймах данных PySpark/Delta
Используя озера pyspark/Delta на Databricks, у меня есть следующий сценарий: sdf = spark.read.format("delta").table("...") result = sdf.filter(...).groupBy(...).agg(...) analysis_1 = result.groupBy(...).count() # transformation performed here...
194 просмотров
schedule 11.02.2023

Исключение в основном потоке java.lang.NoSuchMethodError: com.fasterxml.jackson.module.scala.experimental.ScalaObjectMapper
Исключение в потоке "main" java.lang.NoSuchMethodError: com.fasterxml.jackson.module.scala.experimental.ScalaObjectMapper. $ Init $ (Lcom / fastxml / jackson / module / scala / экспериментальный / ScalaObjectMapper;) V Пока пытаюсь записать df как...
56 просмотров
schedule 01.04.2022

Как использовать Delta Lake с искровой раковиной?
Я пытаюсь писать как Spark DF как DeltaTable. Он отлично работает в моей IDE Intelliji , но с теми же зависимостями и версиями он не работает в моей Spark REPL (оболочке Spark) Версия Spark: 2.4.0 Версия Scala: 2.11.8 Зависимости в Intelliji...
2706 просмотров
schedule 18.05.2022

дельта-таблицы в Azure HDInsight с хранилищем BLOB-объектов Azure
Я пытаюсь написать дельта-таблицу из HDInsight Spark 2.4. Я настроил свою работу, следуя https://docs.delta.io/latest/delta-storage.html#configure-for-azure-blob-storage У меня есть следующий код...
389 просмотров

Странные запросы на поиск _delta_log при использовании пользовательского формата FileFormat в блоках данных
Я наблюдаю очень странные запросы, выдаваемые блоками данных при использовании пользовательского формата файла. Мне нужно реализовать собственный FileFormat для чтения двоичных файлов в spark sql. Я реализовал класс FileFormat (в основном это...
110 просмотров
schedule 21.08.2022

Apache Spark 3 и обратная совместимость?
У нас есть несколько работающих приложений Spark, разработанных с использованием Spark 2.4.1 (Scala 2.11.12). Для нескольких наших новых заданий Spark мы рассматриваем возможность использования функций DeltaLake. Для этого нам нужно использовать...
1928 просмотров
schedule 06.01.2024

Обновление массива структур — Spark
У меня есть следующая структура таблицы дельта искры, +---+------------------------------------------------------+ |id |addresses | +---+------------------------------------------------------+ |1...
678 просмотров

Слияние с дельта-таблицей не работает с java foreachbatch
Я создал дельта-таблицу и теперь пытаюсь вставить данные в эту таблицу с помощью foreachBatch (). Я следил за этим пример . Единственная разница в том, что я использую Java, а не в записной книжке, но, полагаю, это не должно иметь никакого...
443 просмотров

Эффективное чтение / преобразование секционированных данных в дельта-озере
У меня есть данные в дельте озера в ADLS, и я читаю их через Databricks. Данные разделены по году и дате, а z упорядочены по storeIdNum, где имеется около 10 идентификаторов магазинов, каждый из которых содержит несколько миллионов строк на дату....
513 просмотров

Прочитать путь к файлу из темы Kafka, а затем прочитать файл и записать в DeltaLake в структурированной потоковой передаче
У меня есть случай использования, когда путь к файлу json-записей, хранящихся в s3, поступает как сообщение kafka в kafka. Мне нужно обработать данные с помощью искровой структурированной потоковой передачи. Дизайн, который я подумал, выглядит...
118 просмотров

google dataproc - образ версии 2.0.x как понизить версию pyspark до 3.0.1
Использование образа dataproc версии 2.0.x в облаке Google, поскольку в этой версии образа dataproc доступна дельта 0.7.0. Однако этот экземпляр dataproc поставляется с pyspark 3.1.1 по умолчанию, Apache Spark 3.1.1 еще официально не выпущен. Таким...
241 просмотров

Дельта-таблицы Databricks - где они обычно хранятся?
Я начинаю свое путешествие в дельта-таблицы, и одна вещь, которая все еще меня смущает, - это лучшее место для сохранения дельта-таблиц, если вам понадобится запросить их позже. Например, я переношу несколько таблиц из локальных блоков данных в...
76 просмотров
schedule 22.02.2023

Вставить или обновить дельта-таблицу из фрейма данных в Pyspark
В настоящее время у меня есть фрейм данных pyspark, из которого я изначально создал дельта-таблицу, используя приведенный ниже код - df.write.format("delta").saveAsTable("events") Теперь, поскольку приведенный выше фрейм...
1425 просмотров
schedule 24.05.2022

Я получаю сообщение об ошибке Невозможно перейти в таблицу дельты перемещения во времени до версии X, тогда как я вижу версию X при просмотре истории в Azure Databricks.
У меня есть таблица в дельте озера со следующими tblproperties: Я пытаюсь получить доступ к версии, которая была там в прошлом месяце, 322. Когда я смотрю на историю, я вижу ее: Но когда я пытаюсь получить к нему доступ с помощью такой...
143 просмотров

Неописательная ошибка Spark в DELTA MERGE
Я использую Spark 3.1 в Databricks (Databricks Runtime 8) с очень большим кластером (25 рабочих с 112 ГБ памяти и 16 ядер каждый) для репликации нескольких таблиц SAP в хранилище озера данных Azure (ADLS gen2). Для этого инструмент записывает дельты...
82 просмотров

delta (OSS) + MERGE воссоздает базовые файлы паркета, хотя во входящих данных нет изменений
Я использую дельту (OSS - версия 0.7.0 с pyspark 3.0.1), и таблица модифицируется (объединяется) каждые 5 минут - сценарий microbatch pyspark. Когда я запускаю в первый раз, он создал 18 небольших файлов (numTargetRowsInserted -> 32560), и я...
46 просмотров
schedule 29.12.2022

Apache Spark/Azure Data Lake Storage — обработать файл ровно один раз, пометить файл как обработанный
У меня есть контейнер Azure Data Lake Storage, который служит целевой областью для файлов JSON для обработки Apache Spark. Там десятки тысяч маленьких (до нескольких мегабайт) файлов. Код Spark регулярно читает эти файлы и выполняет некоторые...
55 просмотров