Вопросы по теме 's3distcp'

Как избежать исключений Not a file при чтении из HDFS с помощью spark
Я копирую дерево файлов из S3 в HDFS с помощью S3DistCP. на начальном этапе EMR. hdfs dfs -ls -R hdfs:///data_dir показывает ожидаемые файлы, которые выглядят примерно так: /data_dir/year=2015/ /data_dir/year=2015/month=01/...
5848 просмотров
schedule 16.04.2022

Hadoop distcp со списком файлов
Я хотел бы использовать distcp для копирования списка файлов (> 1K файлов) в hdfs. Я уже сохранил список файлов в локальном каталоге, теперь я могу использовать -f для копирования всех файлов? если да, то какой формат я должен поддерживать в моем...
599 просмотров

Hadoop distcp Учетные данные AWS не предоставлены
У меня есть огромное количество файлов S3, которые я хочу поместить в HDFS. Учитывая количество задействованных файлов, я предпочитаю использовать «распределенную копию». Однако по какой-то причине я не могу заставить hadoop distcp использовать мои...
5745 просмотров
schedule 11.10.2022

Планирование экспорта вывода из HDFS в S3
Попытка выяснить, как экспортировать данные из HDFS, которые выводятся заданием Apache Spark Streaming. Следующая диаграмма определяет архитектуру решения: Apache Spark запускает потоковое задание в кластере AWS EMR и сохраняет результат в...
140 просмотров