У меня есть фреймворк Spark со столбцом characters
как 20/01/2000 (день / месяц / год).
Но я пытаюсь изменить его формат на дату, поэтому я смогу использовать здесь функции: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions, чтобы получить только те данные, которые мне нужны (что касается месяцев извлечения и дней, например).
Но похоже, что функции работают только тогда, когда я использую другие форматы дат, например, 1970-01-30.
Пример:
sc <- spark_connect(master = "spark://XXXX")
df <- data.frame(date = c("20/10/2010", "19/11/2010"))
df_tbl <- copy_to(sc, df, "df")
Если я хочу извлечь только месяц в новый столбец:
df_tbl <- df_tbl %>% mutate(month = month(date))
Я получил:
> df_tbl %>% glimpse()
Observations: 2
Variables: 2
$ data <chr> "20/10/2010", "19/11/2010"
$ month <int> NA, NA
Поскольку функция R as.Date()
не работает, мне пришлось бы использовать другой инструмент.
какие-нибудь подсказки?