У меня есть иерархический каталог, в каждом каталоге есть много файлов, и в каждом текстовом файле есть много строк URL-адресов. Я хочу загрузить все URL-адреса во всех файлах в Hadoop для лучшего баланса.
Например, если у меня есть кластер Hadoop с 1 + 5 узлами и 5 URL-адресов. Таким образом, 5-URL-адреса в одном файле или 1-URL-адрес в файле (тогда получите 5 файлов) в качестве входных данных улучшают баланс ?
Я думаю, что Hadoop по умолчанию будет разделять ввод, установленный как блок 64M, для запуска ТОЛЬКО на одном узле, не может запускать все 5 подчиненных устройств.
Спасибо за ответ!