Недавно я хотел провести лабораторию машинного обучения Spark на Spark Summit 2016. Обучающее видео можно найти здесь экспортированная записная книжка доступна здесь.
Набор данных, используемый в лабораторной работе, можно загрузить из репозитория машинного обучения UCI.. Он содержит набор показаний различных датчиков газовой электростанции. Формат - файл xlsx с пятью листами.
Чтобы использовать данные в лаборатории, мне нужно было прочитать все листы из файла Excel и объединить их в один фрейм данных Spark. Во время обучения они используют Databricks Notebook, но я использовал IntelliJ IDEA со Scala и оценивал код в консоли.
Первым шагом было сохранить все листы Excel в отдельные файлы xlsx с именами sheet1.xlxs
, sheet2.xlsx
и т. Д. И поместить их в каталог sheets
.
Как прочитать все файлы Excel и объединить их в один фрейм данных Apache Spark?