Я запускаю задание Hadoop с использованием Hive, которое должно содержать uniq
строки во многих текстовых файлах. На этапе сокращения он выбирает для каждого ключа самую последнюю запись с отметкой времени.
Гарантирует ли Hadoop, что каждая запись с одним и тем же ключом, выводимая на этапе сопоставления, попадет в один редюсер, даже если в кластере запущено много редюсеров?
Я беспокоюсь, что вывод картографа может быть разделен после того, как перетасовка произойдет в середине набора записей с одним и тем же ключом.