Пишу паркетный файл в s3. Я должен знать размер блока s3, чтобы я мог соответственно установить размер группы строк. как 1 размер группы строк = размер блока s3 по умолчанию. (размер группы строк по умолчанию в паркете составляет 128 МБ. Но если попытаться получить смещения строк из метаданных групп строк, я получаю, что каждая группа строк потребляет около 116 МБ. Почему это так?
Например: файл размером 148,7 МБ состоит из 2 групп строк.
row group 1: RC:2870100 TS:429678457 OFFSET:4
row group 2: RC:759588 TS:108434365 OFFSET:123729384
каждая группа строк потребляет примерно 116 МБ данных.