Данные Hive, HDFS в локальную систему и обратно

Я новичок в администрировании Hadoop :)

У меня есть кластер Apache Hadoop 2.4.1 из 8 узлов, используется DFS 16 ТБ (не удалось найти фактор репликации ни в одном из файлов xml), Hive 0.13 с хранилищем метаданных MySQL.

Цель: сделать резервную копию данных кластера на диск NFS, удалить кластер, установить другой дистрибутив (Cloudera, Hortonworks) и перезагрузить данные с диска NFS в этот новый кластер.

Есть две таблицы Hive размером 956 ГБ (примерно 9 миллиардов строк) и 32 ГБ (несколько миллионов строк) и несколько других таблиц меньшего размера.

Проблемы / вопросы:

Как сделать резервную копию всего кластера на диске NFS? В настоящее время у меня есть независимая машина (не часть кластера) с установленным диском NFS
Самый грубый способ - экспортировать таблицы в файлы csv / tsv на диск NFS и загрузить их в новый кластер, когда он будет готов, но экспорт этих больших таблиц в csv / tsv вызывает у меня дискомфорт, но я не мог придумать другого пути
Насколько я понимаю, distcp работает на уровне HDFS, поэтому я не уверен, смогу ли я использовать его для более быстрого копирования из HDFS в NFS и NFS в новую HDFS. Это потому, что тогда мне также нужно сделать резервную копию метаданных Hive, а затем заставить их работать с новым дистрибутивом, что может быть невозможно.

Как мне продолжить эту миграцию или хотя бы перенос данных из HDFS в NFS и обратно?

Kaliyug Antagonist 05.02.2015 источник

Ответы (2)

arrow_upward
0
arrow_downward

Вот шаги, которым мы следуем:

Создать новый кластер hadoop
Скопируйте данные в новый кластер с помощью distcp
Отбросьте старый кластер

Если это не вариант

Напишите сценарий оболочки, который может копировать данные с помощью hadoop fs -get
Убедитесь, что вы применяете логику таким образом, что один и тот же сценарий оболочки можно запускать параллельно, используя nohup, принимая каталог HDFS или шаблон файла в качестве параметров.

Durga Viswanath Gadiraju 01.12.2015

arrow_upward
0
arrow_downward

Используйте команду Hadoop fs -get для передачи файла на NAS. Предполагается, что NAS установлен на одном из узлов HADoop. Для метаданных HIVE выполните команду "SHOW CREATE TABLE tablename", чтобы получить оператор create, который можно запустить в новом кластере.

Несмотря на то, что описанные выше шаги соответствуют вашей цели. Рекомендуемый вариант - скопировать данные из существующего в новый кластер напрямую с помощью DISTCP. и сценарии DDL для куста

Abraham 26.04.2017

Данные Hive, HDFS в локальную систему и обратно

Ответы (2)

Похожие вопросы