Я пытаюсь выяснить, сколько экземпляров MASTER, CORE, TASK оптимально для моей работы. Я не мог найти никакого учебника, который объясняет, как мне это понять.
Как узнать, нужно ли мне более 1 экземпляра ядра? Какие «симптомы» я увижу в консоли EMR в метриках, которые намекают, что мне нужно больше одного ядра? До сих пор, когда я пробовал ту же работу с 1 * ядром + 7 * экземплярами задач, она работала почти так же, как на 8 * ядрах, но для меня это не имеет особого смысла. Или возможно, что моя работа так сильно связана с процессором, что ввод-вывод такой незначительный? (У меня есть задание только для карты, которое анализирует файлы журнала apache в файл csv)
Есть ли такая вещь, чтобы иметь более 1 главного экземпляра? Если да, то когда это необходимо? Интересно, потому что мой главный узел в значительной степени просто ждет, пока другие узлы выполнят эту работу (0% ЦП) в течение 95% времени.
Могут ли мастер и основной узел быть идентичными? У меня может быть только главный кластер, когда 1 и единственный узел делает все. Вроде бы логично было бы иметь кластер с 1 узлом, который является мастером и ядром, а остальные — таск-нодами, но с EMR так настроить вроде бы невозможно. Почему это?