Допустим, у меня есть кластер из 4 nodes
, каждый из которых имеет 1 core
. У меня есть большой файл размером 600 Petabytes
, который я хочу обработать через Spark
. Файл может быть сохранен в HDFS
.
Я думаю, что так определить нет. разделов составляет размер файла / общее количество. ядер в кластере. Если это действительно так, у меня будет 4 partitions
(600/4), поэтому размер каждого раздела будет 125 PB
.
Но я думаю, что 125 PB
слишком большой размер для раздела, поэтому правильно ли я думаю, что это не так. разделов.
PS: я только начал с Apache Spark
. Так что извините, если это наивный вопрос.