Вопросы по теме 'joblib'

Выборочная повторная память фреймов данных
Скажем, я настраиваю мемоизацию с помощью Joblib следующим образом. (используя решение, предоставленное здесь ): from tempfile import mkdtemp cachedir = mkdtemp() from joblib import Memory memory = Memory(cachedir=cachedir, verbose=0)...
443 просмотров
schedule 10.02.2023

Почему важно защитить основной цикл при использовании joblib.Parallel?
Документы joblib содержат следующее предупреждение: В Windows важно защитить основной цикл кода, чтобы избежать рекурсивного порождения подпроцессов при использовании joblib.Parallel. Другими словами, вы должны писать такой код: import...
13224 просмотров
schedule 10.04.2023

pymongo — выполнение параллельных запросов
Вот псевдокод, который я хотел бы распараллелить, но не знаю, с чего начать from pymongo import MongoClient client = MongoClient('localhost', 27017) db = client['myDB'] collection = db.myCollection test_list = ['foo', 'bar'] result_list =...
1186 просмотров
schedule 12.02.2023

Nonetype не может быть вызван из joblib, когда требуется (но не используется) cv2
Эта ошибка довольно странная, всякий раз, когда я использую Kmeans of sklearn с n_jobs> 1 в модульном тесте, и при использовании cv2 с помощью setuptools приводит к вызову None из joblib. Минимальный неудачный пример: setup.py : from...
414 просмотров

scikit-learn ExtraTreesClassifier — Почему файл рассола такой огромный? (Несколько ГБ)
Используя python + scikit-learn, я подогнал классификатор «Extremely Randomized Trees» (ExtraTreesClassifier) ​​к выборочному массиву ~ 900 000 из 100 функций (с действительным значением float64). Потом попробовал засолить. Я создал экземпляр...
880 просмотров

Распаковка огромных файлов рассола
У меня есть огромный файл рассола размером около 6 ГБ, созданный для учебных образцов RainForestClassifer с использованием joblib.dump(). Каждое выполнение должно загружать объекты pickle с помощью joblib.load() для обработки входных данных. Время...
545 просмотров
schedule 08.06.2022

Sklearn Joblib Dump Замена существующих файлов .pkl
Я пытаюсь сохранить состояние модели прогнозирования, сохранив свою модель с помощью joblib.dump(model, path) Это работает нормально, но если я сделаю это дважды, второй набор сгенерированных файлов .pkl_* на самом деле не перезапишет старые,...
1360 просмотров
schedule 02.02.2023

TypeError: невозможно выбрать объекты генератора для методов, не являющихся генераторами.
Моя ошибка аналогична множеству опубликованных вопросов, но ни один из них не решил мою проблему. Итак, я пытался использовать Joblib Parallel & delayed для выполнения параллельной обработки, и функция, которую я хочу использовать, вызывает ошибку...
2781 просмотров
schedule 24.10.2022

Scikit-Learn с Dask-Distributed с использованием вложенного параллелизма?
Например, предположим, что у меня есть код: vectorizer = CountVectorizer(input=u'filename', decode_error=u'replace') classifier = OneVsRestClassifier(LinearSVC()) pipeline = Pipeline([ ('vect', vectorizer), ('clf', classifier)]) with...
473 просмотров

Многопроцессорность Python — почему я получаю так много потоков на процесс?
Я использую joblib (оболочку многопроцессорного пакета) для запуска цикл по некоторой функции по перечисляемому количеству аргументов. Когда я делаю htop , я вижу количество процессов, равное количеству процессоров ( n_jobs=-1 делает это...
1062 просмотров

Эффективное попарное вычисление DTW с использованием numpy или cython
Я пытаюсь вычислить попарные расстояния между несколькими временными рядами, содержащимися в массиве numpy. Пожалуйста, посмотрите код ниже print(type(sales)) print(sales.shape) <class 'numpy.ndarray'> (687, 157) Итак, sales...
7445 просмотров
schedule 02.07.2023

Внешняя обработка разреженных массивов CSR
Как можно применить некоторую функцию параллельно к частям разреженного массива CSR, сохраненному на диске, с помощью Python? Последовательно это может быть сделано, например. сохраняя массив CSR с помощью joblib.dump , открывая его с помощью...
1650 просмотров
schedule 27.11.2022

Промежуточный результат многопроцессорного процесса
У меня есть функция, которая загружает данные и циклически повторяет время, например. def calculate_profit(account): account_data = load(account) #very expensive operation for day in account_data.days:...
241 просмотров
schedule 07.04.2023

Компиляция исполняемого файла с помощью dask или многопроцессорной обработки joblib с помощью cython приводит к ошибкам
Я конвертирую некоторые задания Python с последовательной обработкой в ​​многопроцессорную обработку с помощью dask или joblib. К сожалению, мне нужно работать с Windows. При запуске из IPython или из командной строки с вызовом py-файла с помощью...
1753 просмотров
schedule 15.04.2023

Обучение моделей sklearn параллельно с joblib блокирует процесс
Как было предложено в этом ответе , я попытался использовать joblib для обучения нескольких scikit-learn параллельно. import joblib import numpy from sklearn import tree, linear_model classifierParams = { "Decision Tree":...
2530 просмотров

MemoryError на дампе joblib
У меня есть следующий фрагмент для обучения модели классификации текста. Я немного оптимизировал его, и он работает довольно гладко, однако он по-прежнему использует много оперативной памяти. Наш набор данных огромен (13 миллионов документов + 18...
1495 просмотров

Как составлять задачи в dask-distribution
Я пытаюсь запустить параллельный цикл joblib внутри кластера, распределенного по потокам (см. Причину ниже), но я не могу добиться ускорения из-за блокировки GIL. Вот пример: def task(x): """ Sample single-process task that takes between 2...
231 просмотров
schedule 25.04.2023

Невозможно распараллелить с KNeighborsClassifier
Я пытаюсь обучить и перекрестно проверить KNeighborsClassifier sklearn на MNIST. Я могу подобрать модель, если n_jobs=None , но как только я помещаю модель в параллельную среду (например, RandomizedSearchCV или cross_val_score с n_jobs=-1 ),...
163 просмотров

pickle / joblib AttributeError: модуль '__main__' не имеет атрибута 'thing' в pytest
Я создал собственный конвейер sklearn, как показано ниже: pipeline = make_pipeline( SelectColumnsTransfomer(features_to_use), ToDummiesTransformer('feature_0', prefix='feat_0', drop_first=True, dtype=bool), # Dummify customer_type...
3673 просмотров
schedule 04.09.2023

Читать модель как байты без сохранения в Python?
Python, я сохранил свою модель как файл joblib в определенном месте, я открываю файл в байтах чтения 'rb', можно ли преобразовать прямо в байты вместо сохранения в файл, import joblib joblib.dump(model, 'model.joblib') #Read as bytes model_bytes =...
1229 просмотров
schedule 19.05.2023