Я только что прочитал, что HDF5 позволяет вам получить доступ к данным без чтения всего файла в память.
Возможно ли такое поведение при поиске в файлах Parquet без Java (решения, отличные от pyspark)? Я использую Parquet из-за сильной поддержки dtype.
import h5py
f = h5py.File('my_file.hdf5', 'w')
dset = f.create_dataset('coords', data=my_ndarray)
f.close()
f = h5py.File('my_file.hdf5', 'r')
dset = f['coords']
my_array = dset[-2:]
https://arrow.apache.org/docs/python/parquet.html#inspecting-the-parquet-file-metadata
Я вижу здесь, что метаданные Parquet имеют num_row_groups: 1 (or more)
. Но я не уверен, как это поможет мне получить строки [23, 42, 117, 99293184].