Распаковка огромных файлов рассола

У меня есть огромный файл рассола размером около 6 ГБ, созданный для учебных образцов RainForestClassifer с использованием joblib.dump(). Каждое выполнение должно загружать объекты pickle с помощью joblib.load() для обработки входных данных. Время загрузки очень велико и впоследствии влияет на производительность выполнения скрипта.

Есть ли способ, которым однажды загруженный объект может быть сохранен в памяти и сделать его доступным для последующих исполнений python без вызова joblib.load().

Поможет ли использование БД, такой как sqlite, быстрее загружать данные?


person chandu    schedule 16.02.2016    source источник
comment
Будет ли загрузка содержимого 3 ГБ из sqlitedict быстрее или распаковка файла рассола размером 3 ГБ с помощью joblib.load() ?   -  person chandu    schedule 17.02.2016
comment
вы можете значительно сократить время загрузки объекта pickle, обернув вызовы joblib, как указано здесь (в вашем случае замените pickle на joblib ). Дайте мне знать, если это работает для вас.   -  person Tejas Shah    schedule 19.01.2017
comment
также при выполнении joblib.dump() укажите HIGHEST_PROTOCOL для лучшей производительности. pickle и joblib используют один и тот же протокол   -  person Tejas Shah    schedule 19.01.2017
comment
Я пробовал их, но наш набор данных действительно огромен, поэтому мы запустили http-сервер в фоновом режиме и загрузили все файлы рассола в память. Таким образом, только первый запрос займет много времени. Более поздние казни будут намного быстрее.   -  person chandu    schedule 19.01.2017