Мой набор данных хранится в виде набора CSV-файлов в корзине Amazon Web Services (AWS) Simple Storage Service (S3). Я хотел бы обучить модель PyTorch на основе этих данных, но встроенные классы набора данных не обеспечивают встроенную поддержку служб хранения объектов, таких как S3 или Google Cloud Storage (GCS), хранилище BLOB-объектов Azure и т. д. Я проверил документацию по PyTorch здесь https://pytorch.org/docs/stable/data.html# о доступных классах наборов данных и не хватает поддержки общедоступного облачного хранилища объектов.
Похоже, мне нужно создать свой собственный набор данных в соответствии со следующими инструкциями: https://pytorch.org/tutorials/beginner/data_loading_tutorial.html#dataset-class, но усилия кажутся чрезмерными: мне нужно выяснить, как загрузить данные из хранилища объектов в локальный узел, проанализировать файлы CSV для прочитайте их в тензорах PyTorch, а затем разберитесь с возможностью нехватки места на диске, поскольку мой набор данных составляет 100 ГБ.
Поскольку модели PyTorch обучаются с использованием градиентного спуска, и мне нужно хранить в памяти только небольшой пакет данных (менее 1 ГБ) за раз, существует ли специальная реализация набора данных, которая может помочь?