Я хочу прочитать файлы avro, расположенные в Amazon S3, из блокнота Zeppelin. Насколько я понимаю, у Databricks есть замечательный пакет для этого spark-avro
. Какие шаги мне нужно предпринять, чтобы загрузить этот jar-файл в мой кластер и заставить его работать?
Когда я пишу это в своем блокноте,
val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")
Я получаю следующую ошибку -
<console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader
Я просмотрел это. Я предполагаю, что опубликованное там решение не работает для последней версии Amazon EMR.
Если бы кто-то мог дать мне указатели, это действительно помогло бы.