Я использую блокнот Databricks со Spark и Scala для чтения данных из S3
в DataFrame:
myDf = spark.read.parquet(s"s3a://data/metrics/*/*/*/)
. где *
подстановочных знака представляют год/месяц/день.
Или я просто жестко запрограммировал это: myDf = spark.read.parquet(s"s3a://data/metrics/2018/05/20/)
Теперь я хочу добавить параметр часа сразу после дня. Идея состоит в том, чтобы получить данные от S3
за последний доступный час.
Если я сделаю myDf = spark.read.parquet(s"s3a://data/metrics/2018/05/20/*)
, то получу данные за все часы 20 мая.
Как можно добиться этого в записной книжке Databricks без жесткого кодирования часа?