Распаковка огромных файлов рассола

У меня есть огромный файл рассола размером около 6 ГБ, созданный для учебных образцов RainForestClassifer с использованием joblib.dump(). Каждое выполнение должно загружать объекты pickle с помощью joblib.load() для обработки входных данных. Время загрузки очень велико и впоследствии влияет на производительность выполнения скрипта.

Есть ли способ, которым однажды загруженный объект может быть сохранен в памяти и сделать его доступным для последующих исполнений python без вызова joblib.load().

Поможет ли использование БД, такой как sqlite, быстрее загружать данные?

chandu 16.02.2016 источник

comment

Будет ли загрузка содержимого 3 ГБ из sqlitedict быстрее или распаковка файла рассола размером 3 ГБ с помощью joblib.load() ? - chandu 17.02.2016

comment

вы можете значительно сократить время загрузки объекта pickle, обернув вызовы joblib, как указано здесь (в вашем случае замените pickle на joblib ). Дайте мне знать, если это работает для вас. - Tejas Shah 19.01.2017

comment

также при выполнении joblib.dump() укажите HIGHEST_PROTOCOL для лучшей производительности. pickle и joblib используют один и тот же протокол - Tejas Shah 19.01.2017

comment

Я пробовал их, но наш набор данных действительно огромен, поэтому мы запустили http-сервер в фоновом режиме и загрузили все файлы рассола в память. Таким образом, только первый запрос займет много времени. Более поздние казни будут намного быстрее. - chandu 19.01.2017

Распаковка огромных файлов рассола

Похожие вопросы