Я новичок в администрировании Hadoop :)
У меня есть кластер Apache Hadoop 2.4.1 из 8 узлов, используется DFS 16 ТБ (не удалось найти фактор репликации ни в одном из файлов xml), Hive 0.13 с хранилищем метаданных MySQL.
Цель: сделать резервную копию данных кластера на диск NFS, удалить кластер, установить другой дистрибутив (Cloudera, Hortonworks) и перезагрузить данные с диска NFS в этот новый кластер.
Есть две таблицы Hive размером 956 ГБ (примерно 9 миллиардов строк) и 32 ГБ (несколько миллионов строк) и несколько других таблиц меньшего размера.
Проблемы / вопросы:
- Как сделать резервную копию всего кластера на диске NFS? В настоящее время у меня есть независимая машина (не часть кластера) с установленным диском NFS
- Самый грубый способ - экспортировать таблицы в файлы csv / tsv на диск NFS и загрузить их в новый кластер, когда он будет готов, но экспорт этих больших таблиц в csv / tsv вызывает у меня дискомфорт, но я не мог придумать другого пути
- Насколько я понимаю, distcp работает на уровне HDFS, поэтому я не уверен, смогу ли я использовать его для более быстрого копирования из HDFS в NFS и NFS в новую HDFS. Это потому, что тогда мне также нужно сделать резервную копию метаданных Hive, а затем заставить их работать с новым дистрибутивом, что может быть невозможно.
Как мне продолжить эту миграцию или хотя бы перенос данных из HDFS в NFS и обратно?