Есть ли способ в pyarrow, как читать в секционированном наборе данных, состоящем из файлов csv, у которых нет имен столбцов, хранящихся в первой строке?
То, что я пытаюсь сделать, по сути:
from pyarrow import dataset as ds
from pyarrow import fs
filesystem = fs.HadoopFileSystem(host = 'my_host', port = 0, kerb_ticket = 'path_to_ticket_cache')
dataset = ds.dataset('path_to_my_dataset',filesystem = filesystem, format = 'csv', partitioning = 'hive')
my_data = dataset.to_table().to_pandas()
Однако pyarrow по умолчанию предполагает, что каждый из файлов CSV будет иметь одинаковый заголовок, и поэтому правильно загружает только столбцы разделения. Для других столбцов он считает, что имена столбцов не совпадают, и поэтому только данные, загруженные из первого файла csv, имеют ненулевые значения в столбцах, которые не являются столбцами разделения.
Есть ли обходной путь, как загрузить данные без заголовков?