Как определить размер кадра H2O в байтах в Python?

Я загружаю кадры данных Spark в H2O (используя Python) для построения моделей машинного обучения. Мне было рекомендовано выделить кластер H2O с оперативной памятью в 2-4 раза больше, чем кадр, на котором я буду тренироваться, чтобы анализ удобно помещался в памяти. Но я не знаю, как точно оценить размер кадра H2O.

Итак, предположим, что у меня есть фрейм H2O, уже загруженный в Python, как мне определить его размер в байтах? Приближение в пределах 10-20% нормально.


person abeboparebop    schedule 27.03.2017    source источник


Ответы (2)


Это покажет сводку базового представления в хранилище ключ-значение H2O, включая полный размер байта:

frame.describe(chunk_summary=True)
person Arno Candel    schedule 29.03.2017

Это относится к 2-4-кратному размеру файла на диске, поэтому вместо того, чтобы смотреть на память в Python, посмотрите на исходный размер файла. Кроме того, рекомендация 2-4x зависит от алгоритма (GLM и DL требуют меньше памяти, чем древовидные модели).

person Erin LeDell    schedule 27.03.2017
comment
Кадр H2O создается путем преобразования кадра данных Spark с применением различных преобразований (который сам изначально был создан из запроса Hive). Насколько мне известно, он напрямую не соответствует файлу на диске. - person abeboparebop; 28.03.2017