Hadoop distcp со списком файлов

Я хотел бы использовать distcp для копирования списка файлов (> 1K файлов) в hdfs. Я уже сохранил список файлов в локальном каталоге, теперь я могу использовать -f для копирования всех файлов? если да, то какой формат я должен поддерживать в моем файле списка файлов? или есть другой лучший способ?


person Turbo Sullivan    schedule 01.08.2016    source источник
comment
Привет, вы не можете использовать distcp для копирования файлов из LFS (локальная файловая система) в HDFS. Правильная команда -copyFromLocal ‹источник› ‹назначение›   -  person Raunak Jhawar    schedule 01.08.2016


Ответы (1)


Вам не нужно использовать distcp, если вы копируете данные из локальной файловой системы (скажем, Linux) в HDFS. Вы можете просто использовать команду hdfs dfs -put для того же самого. Вот синтаксис.

hdfs dfs -put /path/to/local/dir/* /path/on/hdfs/

e.g.

hdfs dfs -mkdir /user/hduser/destination-dir/

hdfs dfs -put /home/abc/mydir/* /user/hduser/destination-dir/

Вы создали файл, содержащий список путей к файлам, но это совсем не нужно. Он в основном используется (для distcp), когда вы копируете данные из одного кластера в другой кластер.

person PradeepKumbhar    schedule 02.08.2016