Вопросы по теме 'joblib'
Выборочная повторная память фреймов данных
Скажем, я настраиваю мемоизацию с помощью Joblib следующим образом. (используя решение, предоставленное здесь ):
from tempfile import mkdtemp
cachedir = mkdtemp()
from joblib import Memory
memory = Memory(cachedir=cachedir, verbose=0)...
443 просмотров
schedule
10.02.2023
Почему важно защитить основной цикл при использовании joblib.Parallel?
Документы joblib содержат следующее предупреждение:
В Windows важно защитить основной цикл кода, чтобы избежать рекурсивного порождения подпроцессов при использовании joblib.Parallel. Другими словами, вы должны писать такой код:
import...
13224 просмотров
schedule
10.04.2023
pymongo — выполнение параллельных запросов
Вот псевдокод, который я хотел бы распараллелить, но не знаю, с чего начать
from pymongo import MongoClient
client = MongoClient('localhost', 27017)
db = client['myDB']
collection = db.myCollection
test_list = ['foo', 'bar']
result_list =...
1186 просмотров
schedule
12.02.2023
Nonetype не может быть вызван из joblib, когда требуется (но не используется) cv2
Эта ошибка довольно странная, всякий раз, когда я использую Kmeans of sklearn с n_jobs> 1 в модульном тесте, и при использовании cv2 с помощью setuptools приводит к вызову None из joblib.
Минимальный неудачный пример:
setup.py :
from...
414 просмотров
schedule
28.10.2022
scikit-learn ExtraTreesClassifier — Почему файл рассола такой огромный? (Несколько ГБ)
Используя python + scikit-learn, я подогнал классификатор «Extremely Randomized Trees» (ExtraTreesClassifier) к выборочному массиву ~ 900 000 из 100 функций (с действительным значением float64). Потом попробовал засолить.
Я создал экземпляр...
880 просмотров
schedule
05.04.2023
Распаковка огромных файлов рассола
У меня есть огромный файл рассола размером около 6 ГБ, созданный для учебных образцов RainForestClassifer с использованием joblib.dump(). Каждое выполнение должно загружать объекты pickle с помощью joblib.load() для обработки входных данных. Время...
545 просмотров
schedule
08.06.2022
Sklearn Joblib Dump Замена существующих файлов .pkl
Я пытаюсь сохранить состояние модели прогнозирования, сохранив свою модель с помощью
joblib.dump(model, path)
Это работает нормально, но если я сделаю это дважды, второй набор сгенерированных файлов .pkl_* на самом деле не перезапишет старые,...
1360 просмотров
schedule
02.02.2023
TypeError: невозможно выбрать объекты генератора для методов, не являющихся генераторами.
Моя ошибка аналогична множеству опубликованных вопросов, но ни один из них не решил мою проблему.
Итак, я пытался использовать Joblib Parallel & delayed для выполнения параллельной обработки, и функция, которую я хочу использовать, вызывает ошибку...
2781 просмотров
schedule
24.10.2022
Scikit-Learn с Dask-Distributed с использованием вложенного параллелизма?
Например, предположим, что у меня есть код:
vectorizer = CountVectorizer(input=u'filename', decode_error=u'replace')
classifier = OneVsRestClassifier(LinearSVC())
pipeline = Pipeline([
('vect', vectorizer),
('clf', classifier)])
with...
473 просмотров
schedule
19.07.2022
Многопроцессорность Python — почему я получаю так много потоков на процесс?
Я использую joblib (оболочку многопроцессорного пакета) для запуска цикл по некоторой функции по перечисляемому количеству аргументов. Когда я делаю htop , я вижу количество процессов, равное количеству процессоров ( n_jobs=-1 делает это...
1062 просмотров
schedule
18.11.2023
Эффективное попарное вычисление DTW с использованием numpy или cython
Я пытаюсь вычислить попарные расстояния между несколькими временными рядами, содержащимися в массиве numpy. Пожалуйста, посмотрите код ниже
print(type(sales))
print(sales.shape)
<class 'numpy.ndarray'>
(687, 157)
Итак, sales...
7445 просмотров
schedule
02.07.2023
Внешняя обработка разреженных массивов CSR
Как можно применить некоторую функцию параллельно к частям разреженного массива CSR, сохраненному на диске, с помощью Python? Последовательно это может быть сделано, например. сохраняя массив CSR с помощью joblib.dump , открывая его с помощью...
1650 просмотров
schedule
27.11.2022
Промежуточный результат многопроцессорного процесса
У меня есть функция, которая загружает данные и циклически повторяет время, например.
def calculate_profit(account):
account_data = load(account) #very expensive operation
for day in account_data.days:...
241 просмотров
schedule
07.04.2023
Компиляция исполняемого файла с помощью dask или многопроцессорной обработки joblib с помощью cython приводит к ошибкам
Я конвертирую некоторые задания Python с последовательной обработкой в многопроцессорную обработку с помощью dask или joblib. К сожалению, мне нужно работать с Windows. При запуске из IPython или из командной строки с вызовом py-файла с помощью...
1753 просмотров
schedule
15.04.2023
Обучение моделей sklearn параллельно с joblib блокирует процесс
Как было предложено в этом ответе , я попытался использовать joblib для обучения нескольких scikit-learn параллельно.
import joblib
import numpy
from sklearn import tree, linear_model
classifierParams = {
"Decision Tree":...
2530 просмотров
schedule
09.05.2022
MemoryError на дампе joblib
У меня есть следующий фрагмент для обучения модели классификации текста. Я немного оптимизировал его, и он работает довольно гладко, однако он по-прежнему использует много оперативной памяти. Наш набор данных огромен (13 миллионов документов + 18...
1495 просмотров
schedule
05.01.2023
Как составлять задачи в dask-distribution
Я пытаюсь запустить параллельный цикл joblib внутри кластера, распределенного по потокам (см. Причину ниже), но я не могу добиться ускорения из-за блокировки GIL. Вот пример:
def task(x):
""" Sample single-process task that takes between 2...
231 просмотров
schedule
25.04.2023
Невозможно распараллелить с KNeighborsClassifier
Я пытаюсь обучить и перекрестно проверить KNeighborsClassifier sklearn на MNIST. Я могу подобрать модель, если n_jobs=None , но как только я помещаю модель в параллельную среду (например, RandomizedSearchCV или cross_val_score с n_jobs=-1 ),...
163 просмотров
schedule
13.12.2022
pickle / joblib AttributeError: модуль '__main__' не имеет атрибута 'thing' в pytest
Я создал собственный конвейер sklearn, как показано ниже:
pipeline = make_pipeline(
SelectColumnsTransfomer(features_to_use),
ToDummiesTransformer('feature_0', prefix='feat_0', drop_first=True, dtype=bool), # Dummify customer_type...
3673 просмотров
schedule
04.09.2023
Читать модель как байты без сохранения в Python?
Python, я сохранил свою модель как файл joblib в определенном месте, я открываю файл в байтах чтения 'rb', можно ли преобразовать прямо в байты вместо сохранения в файл,
import joblib
joblib.dump(model, 'model.joblib')
#Read as bytes
model_bytes =...
1229 просмотров
schedule
19.05.2023