Я хотел бы предоставить в сеть множество обучающих изображений, выбранных из набора данных в соответствии с определенными правилами выборки. Теперь у меня есть два варианта:
Используйте логику выборки для создания списка изображений в автономном режиме, затем преобразуйте файл .lst в файл .rec и используйте последовательный DataIter для доступа к нему.
Напишите свой собственный дочерний класс DataIter, который может сэмплировать изображения онлайн. В результате класс должен поддерживать произвольный доступ, возможно, наследуя от MXIndexedRecordIO. Мне нужно будет создать файл .rec для исходного набора данных.
Моя интуиция подсказывает мне, что последовательный доступ будет быстрее, чем произвольный доступ к файлу .rec. Но я не знаю, достаточно ли велика разница, чтобы оправдать дополнительное время, которое я трачу на написание и тестирование своего собственного класса итератора. Может ли кто-нибудь дать мне подсказку по этому поводу?