У меня вопрос о том, когда начинается перетасовка.
Допустим, у меня есть 2 маппера и 1 редьюсер. Каждый картограф будет генерировать выходную карту map1 и map2. Эта карта1 и карта2 хранятся на временном диске соответствующего узла данных.
Теперь редюсер должен ждать вывода как карты1, так и карты2? Другими словами, когда начинается перетасовка? как только закончится map1 или нужно дождаться завершения map2?
Я слушаю перетасовку трафика на редукторе и не могу найти никакого трафика, но вывод консоли показывает, что уже 70% (приблизительно) редукции завершено.
14/12/18 17:45:55 INFO mapred.JobClient: map 97% reduce 22%
14/12/18 17:45:58 INFO mapred.JobClient: map 98% reduce 22%
14/12/18 17:45:59 INFO mapred.JobClient: map 99% reduce 22%
14/12/18 17:46:07 INFO mapred.JobClient: map 100% reduce 22%
14/12/18 17:46:12 INFO mapred.JobClient: map 100% reduce 67%
14/12/18 17:46:15 INFO mapred.JobClient: map 100% reduce 71%
Я вижу, что после этой точки появляется перетасовка трафика.
Я немного запутался здесь. Что это примерно за 70% работы редуктора? !
Спасибо