Я определил таблицу Hive, в которой один столбец содержит текст JSON:
CREATE EXTERNAL TABLE IF NOT EXISTS my.rawdata (
json string
)
PARTITIONED BY (dt string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
'separatorChar' = '\n',
'quoteChar' = '\0',
'escapeChar' = '\r'
)
STORED AS TEXTFILE
LOCATION 's3://mydata/';
Есть ли запрос Presto / Athena, который может перечислить все имена полей, которые встречаются в JSON, и их частоту (то есть общее количество раз, когда атрибут появляется в таблице)?
org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
, но на самом деле это не имеет никакого значения. Для quoteChar и escapeChar мне просто нужен был символ, которого нет в файле. - person Alex R   schedule 23.04.2018