Вопросы по теме 'dask-distributed'

Получение, просмотр результатов и отмена фьючерсов с помощью клиента
Сценарий : пользователь A подключается к планировщику dask, отправляет длинное задание, используя client.map(func, list) , и выходит из системы на выходные. Пользователь B хочет просмотреть результаты готовых фьючерсов, созданных пользователем A,...
183 просмотров
schedule 02.07.2022

Определение рабочих ресурсов dask для операции фрейма данных
Я применяю несколько операций к фрейму данных dask. Могу ли я определить требования к распределенным рабочим ресурсам для конкретной операции? например Я называю что-то вроде: df.fillna(value="").map_partitions(...).map(...) Я хочу...
97 просмотров
schedule 26.03.2023

Безопасный и эффективный способ изменения фрейма данных dask
В рамках рабочего процесса с данными мне нужно изменить значения в подмножестве столбцов фрейма данных dask и передать результаты для дальнейших вычислений. В частности, меня интересуют два случая: сопоставление столбцов и сопоставление разделов....
885 просмотров
schedule 14.01.2022

Как включить правильное кражу работы в dask.distributed при использовании ограничений задач / рабочих ресурсов?
Контекст Я использую dask.distributed для распараллеливания вычислений на разных машинах. Поэтому у меня есть dask-worker, работающие на разных машинах, которые подключаются к dask-scheduler, на который я могу затем отправлять свои собственные...
303 просмотров
schedule 31.07.2023

Автоматическое добавление набора данных в планировщик Dask при запуске
TL; DR Я хочу предварительно загрузить набор данных в планировщик Dask Distributed при его запуске. Фон Я использую Dask для запросов в режиме реального времени с набором данных меньшего размера, чем объем памяти. Поскольку это в реальном...
190 просмотров
schedule 10.08.2023

Профилирование распределенной коммуникации между работниками и клиентом в Dask
Я хотел бы спросить, есть ли способ измерить время общения между сотрудниками и клиентом. В настоящее время я использую плагин Scheduler для получения состояний задач и получения оттуда сведений о выполнении. Я не вижу никаких задач передачи, когда...
88 просмотров
schedule 22.05.2022

Семафоры в dask.distributed?
У меня есть кластер dask с n рабочими, и я хочу, чтобы рабочие выполняли запросы к базе данных. Но база данных способна обрабатывать только m запросов параллельно, где m ‹n. Как я могу смоделировать это в dask.distributed? Параллельно над такой...
344 просмотров
schedule 19.06.2022

Есть ли способ узнать, работает ли dask-worker на устройстве с процессором или на устройстве с графическим процессором?
Предположим, в даск-кластере есть несколько устройств ЦП, а также несколько устройств ГП. На каждом устройстве работает один dask-worker. Теперь вопрос в том, как мне определить, что базовым устройством dask-worker является ЦП или ГП. Например: -...
177 просмотров
schedule 27.07.2023

Не удалось перехватить исключение KeyboardInterrupt после запуска dask.distributed Client/LocalClient
Я пытаюсь использовать Ctrl + C, чтобы изящно остановить мой работающий код, включая локальный клиент dask.distrubted. Код ниже является примером моей настройки. Когда я использую Ctrl + C, метод stop() вызывается правильно, однако клиент dask,...
245 просмотров

Как составлять задачи в dask-distribution
Я пытаюсь запустить параллельный цикл joblib внутри кластера, распределенного по потокам (см. Причину ниже), но я не могу добиться ускорения из-за блокировки GIL. Вот пример: def task(x): """ Sample single-process task that takes between 2...
231 просмотров
schedule 25.04.2023

Dask, как избежать пересчета вещей
Используя dask, я определил длинный конвейер вычислений; в какой-то момент с учетом ограничений в apis и версии мне нужно вычислить небольшой результат (не ленивый) и передать его в ленивых операциях. Моя проблема в том, что на этом этапе будет...
168 просмотров
schedule 06.07.2023

Планировщик запущенных процессов в распределенном Dask
Локальная даска позволяет использовать планировщик процессов. Рабочие в распределенном dask используют ThreadPoolExecutor для вычисления задач. Можно ли заменить ThreadPoolExecutor на ProcessPoolExecutor в распределенном dask? Спасибо.
242 просмотров
schedule 03.03.2022

Построение параллельной модели Sklearn с помощью Dask или Joblib
У меня есть большой набор конвейеров sklearn, которые я хотел бы построить параллельно с Dask. Вот простой, но наивный последовательный подход: from sklearn.naive_bayes import MultinomialNB from sklearn.linear_model import LogisticRegression...
1339 просмотров

Как получить результаты задач, когда они завершены, а не после того, как все закончились в Dask?
У меня есть фреймворк dask, и я хочу вычислить некоторые независимые задачи. Некоторые задачи выполняются быстрее других, но я получаю результат каждой задачи после завершения более длительных задач. Я создал локального клиента и использую...
97 просмотров
schedule 08.12.2023

Трансляция Dask недоступна во время вычисления графа
Я экспериментирую с Dask и хочу отправить поиск pandas.DataFrame на все рабочие узлы. К сожалению, это не удается: TypeError: ("'Future' object is not subscriptable", 'occurred at index 0') Когда вместо lookup['baz'].iloc[2] используется...
247 просмотров
schedule 09.04.2022

Использование существующего кластера dataproc для запуска dask
У меня есть кластер dataproc, работающий на облачной платформе Google. Я намерен передать этот кластер в клиенте dask вместо инициализации нового кластера dask-yarn Однако я не могу напрямую использовать свой кластер dataproc. #Instead of :...
722 просмотров

сбор большого фрейма данных обратно в мастер в распределенном dask
У меня есть большой (~ 180 тыс. строк) кадр данных, для которого df.compute() зависает при запуске dask с распределенным планировщиком в локальном режиме на AWS m5.12xlarge (98 ядер). Все рабочие остаются почти без дела Однако...
25 просмотров
schedule 25.10.2022

Не удается запустить dask-mpi с таймаутом Python 3.7 при подключении клиента к планировщику dask-mpi
Я пытаюсь запустить Dask-MPI «Начало работы» ( http://mpi.dask.org/en/latest/ ) в свежей среде Anaconda. Я настроил среду, используя conda create -n dask-mpi -c conda-forge python=3.7 dask-mpi conda activate dask-mpi Внутри среды я бегу...
78 просмотров
schedule 18.11.2022

Проблема с запуском Dask на AWS Sagemaker и AWS Fargate
Я пытаюсь настроить кластер на AWS для запуска обучения распределенной модели sklearn с помощью dask. Для начала я пытался следовать этому руководству, которое я надеюсь настроить:...
998 просмотров

Есть ли в dask эквивалент maxtasksperchild?
У нас есть задания, которые взаимодействуют с машинным кодом, и есть неизбежные утечки памяти, пока рабочий обрабатывает задачу. Простым решением наших проблем был перезапуск воркера после определенного количества задач. Мы переходим с...
33 просмотров
schedule 23.03.2022