дельта-таблицы в Azure HDInsight с хранилищем BLOB-объектов Azure

Я пытаюсь написать дельта-таблицу из HDInsight Spark 2.4.

Я настроил свою работу, следуя https://docs.delta.io/latest/delta-storage.html#configure-for-azure-blob-storage

У меня есть следующий код

myrdd.write().format("delta").mode(SaveMode.Append).partitionBy("col1","col2")
                    .save("wasbs://[email protected]/delta/table1");

Запись прошла успешно, и я вижу паркетные файлы, записанные в место хранения, но когда я смотрю на файл __deltalog. Я не вижу записанной информации о разделе, см. Ниже partitionBy - пустой массив

{"commitInfo":{"timestamp":1586157735069,"operation":"WRITE","operationParameters":{"mode":"Append","partitionBy":"[]"},"isBlindAppend":true}}

Также отсутствует информация о разделах отдельных паркетных файлов.

{"add":{"path":"part-00000-10341955-1490-4fc4-a66c-e7fdd6765fb2-c000.snappy.parquet","partitionValues":{},"size":10473576,"modificationTime":1586157604000,"dataChange":true}}
{"add":{"path":"part-00001-13651729-a04c-400e-ba42-242df2d0afd4-c000.snappy.parquet","partitionValues":{},"size":3884853,"modificationTime":1586157734000,"dataChange":true}}
{"add":{"path":"part-00002-dc29cc35-ef55-4f71-8195-927d76867195-c000.snappy.parquet","partitionValues":{},"size":2449481,"modificationTime":1586157371000,"dataChange":true}}
{"add":{"path":"part-00003-0a8028fa-e910-420b-aa82-b85f4ee1ce4a-c000.snappy.parquet","partitionValues":{},"size":2680111,"modificationTime":1586157441000,"dataChange":true}}
{"add":{"path":"part-00004-414dc827-2860-44f2-82ff-67e7c6f53e50-c000.snappy.parquet","partitionValues":{},"size":3321879,"modificationTime":1586157381000,"dataChange":true}}
{"add":{"path":"part-00005-b7bb3b28-a78a-4733-be54-e30d88b8d360-c000.snappy.parquet","partitionValues":{},"size":4634113,"modificationTime":1586157618000,"dataChange":true}}

Я передаю следующие пакеты в мою искру

io.delta:delta-core_2.11:0.5.0,org.apache.hadoop:hadoop-azure:3.2.0

Сообщите мне, если я что-то упускаю или неправильно интерпретирую.


person blob    schedule 06.04.2020    source источник


Ответы (1)


Согласно документации по дельтовому озеру, поддержка дельта-озера доступна в Spark версии 2.4.2.

HDinsight spark выпустила новую версию в июле 2020 года, которая включает Spark 2.4.4.

В более новой версии HDInsight, которая поставляется с Spark 2.4.4, я вижу, что данные записываются с соответствующими разделами.

person blob    schedule 29.08.2020