Использование искры на мезо с помощью kafka и cassandra (таким образом, spark-cassandra-connector) с потоковой передачей искры я слушаю тему kafka, а затем вставляю в cassandra с помощью .saveToCassandra
У меня есть 60 процессоров, выделенных для Spark (30 узлов Spark и 5 узлов Cassandra), и я пытаюсь следовать рекомендации Apache Spark «В общем, мы рекомендуем 2-3 задачи на ядро ЦП в вашем кластере». То есть 120-180 задач.
Однако кажется, что этап вставки имеет ряд задач в зависимости от полученных входных данных.
Пример (мой потоковый пакет длится 1 минуту):
900 per minute -> inserting stage has 12 tasks
50 000 per minute -> inserting stage has 380 tasks
Как я могу получить:
x per minute -> inserting stage has 180 tasks