У меня есть большой текстовый файл, хранящийся в S3, и я могу получить к нему доступ из EMR (скажем, PIG) напрямую, используя формат «s3:///folder/folder/file» в многоузловом кластере.
Мой вопрос касается эффективности передачи данных на узлы данных. Я считаю, что данные в S3 хранятся в блоках аналогично HDFS.
- При чтении файла, как он разделяется и отправляется на каждый из узлов данных?
- Контролируется ли распределение по узлам данных с помощью Master Node/Job Tracker?
- Является ли более эффективным копирование файла в HDFS, а затем доступ к нему?