Вопросы по теме 'dask-distributed'
Получение, просмотр результатов и отмена фьючерсов с помощью клиента
Сценарий : пользователь A подключается к планировщику dask, отправляет длинное задание, используя client.map(func, list) , и выходит из системы на выходные. Пользователь B хочет просмотреть результаты готовых фьючерсов, созданных пользователем A,...
183 просмотров
schedule
02.07.2022
Определение рабочих ресурсов dask для операции фрейма данных
Я применяю несколько операций к фрейму данных dask. Могу ли я определить требования к распределенным рабочим ресурсам для конкретной операции?
например Я называю что-то вроде:
df.fillna(value="").map_partitions(...).map(...)
Я хочу...
97 просмотров
schedule
26.03.2023
Безопасный и эффективный способ изменения фрейма данных dask
В рамках рабочего процесса с данными мне нужно изменить значения в подмножестве столбцов фрейма данных dask и передать результаты для дальнейших вычислений. В частности, меня интересуют два случая: сопоставление столбцов и сопоставление разделов....
885 просмотров
schedule
14.01.2022
Как включить правильное кражу работы в dask.distributed при использовании ограничений задач / рабочих ресурсов?
Контекст
Я использую dask.distributed для распараллеливания вычислений на разных машинах. Поэтому у меня есть dask-worker, работающие на разных машинах, которые подключаются к dask-scheduler, на который я могу затем отправлять свои собственные...
303 просмотров
schedule
31.07.2023
Автоматическое добавление набора данных в планировщик Dask при запуске
TL; DR Я хочу предварительно загрузить набор данных в планировщик Dask Distributed при его запуске.
Фон Я использую Dask для запросов в режиме реального времени с набором данных меньшего размера, чем объем памяти. Поскольку это в реальном...
190 просмотров
schedule
10.08.2023
Профилирование распределенной коммуникации между работниками и клиентом в Dask
Я хотел бы спросить, есть ли способ измерить время общения между сотрудниками и клиентом. В настоящее время я использую плагин Scheduler для получения состояний задач и получения оттуда сведений о выполнении. Я не вижу никаких задач передачи, когда...
88 просмотров
schedule
22.05.2022
Семафоры в dask.distributed?
У меня есть кластер dask с n рабочими, и я хочу, чтобы рабочие выполняли запросы к базе данных. Но база данных способна обрабатывать только m запросов параллельно, где m ‹n. Как я могу смоделировать это в dask.distributed? Параллельно над такой...
344 просмотров
schedule
19.06.2022
Есть ли способ узнать, работает ли dask-worker на устройстве с процессором или на устройстве с графическим процессором?
Предположим, в даск-кластере есть несколько устройств ЦП, а также несколько устройств ГП. На каждом устройстве работает один dask-worker. Теперь вопрос в том, как мне определить, что базовым устройством dask-worker является ЦП или ГП.
Например: -...
177 просмотров
schedule
27.07.2023
Не удалось перехватить исключение KeyboardInterrupt после запуска dask.distributed Client/LocalClient
Я пытаюсь использовать Ctrl + C, чтобы изящно остановить мой работающий код, включая локальный клиент dask.distrubted. Код ниже является примером моей настройки. Когда я использую Ctrl + C, метод stop() вызывается правильно, однако клиент dask,...
245 просмотров
schedule
29.05.2023
Как составлять задачи в dask-distribution
Я пытаюсь запустить параллельный цикл joblib внутри кластера, распределенного по потокам (см. Причину ниже), но я не могу добиться ускорения из-за блокировки GIL. Вот пример:
def task(x):
""" Sample single-process task that takes between 2...
231 просмотров
schedule
25.04.2023
Dask, как избежать пересчета вещей
Используя dask, я определил длинный конвейер вычислений; в какой-то момент с учетом ограничений в apis и версии мне нужно вычислить небольшой результат (не ленивый) и передать его в ленивых операциях. Моя проблема в том, что на этом этапе будет...
168 просмотров
schedule
06.07.2023
Планировщик запущенных процессов в распределенном Dask
Локальная даска позволяет использовать планировщик процессов. Рабочие в распределенном dask используют ThreadPoolExecutor для вычисления задач. Можно ли заменить ThreadPoolExecutor на ProcessPoolExecutor в распределенном dask? Спасибо.
242 просмотров
schedule
03.03.2022
Построение параллельной модели Sklearn с помощью Dask или Joblib
У меня есть большой набор конвейеров sklearn, которые я хотел бы построить параллельно с Dask. Вот простой, но наивный последовательный подход:
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression...
1339 просмотров
schedule
23.07.2022
Как получить результаты задач, когда они завершены, а не после того, как все закончились в Dask?
У меня есть фреймворк dask, и я хочу вычислить некоторые независимые задачи. Некоторые задачи выполняются быстрее других, но я получаю результат каждой задачи после завершения более длительных задач.
Я создал локального клиента и использую...
97 просмотров
schedule
08.12.2023
Трансляция Dask недоступна во время вычисления графа
Я экспериментирую с Dask и хочу отправить поиск pandas.DataFrame на все рабочие узлы. К сожалению, это не удается:
TypeError: ("'Future' object is not subscriptable", 'occurred at index 0')
Когда вместо lookup['baz'].iloc[2] используется...
247 просмотров
schedule
09.04.2022
Использование существующего кластера dataproc для запуска dask
У меня есть кластер dataproc, работающий на облачной платформе Google. Я намерен передать этот кластер в клиенте dask вместо инициализации нового кластера dask-yarn
Однако я не могу напрямую использовать свой кластер dataproc.
#Instead of :...
722 просмотров
schedule
05.04.2022
сбор большого фрейма данных обратно в мастер в распределенном dask
У меня есть большой (~ 180 тыс. строк) кадр данных, для которого
df.compute()
зависает при запуске dask с распределенным планировщиком в локальном режиме на AWS m5.12xlarge (98 ядер). Все рабочие остаются почти без дела Однако...
25 просмотров
schedule
25.10.2022
Не удается запустить dask-mpi с таймаутом Python 3.7 при подключении клиента к планировщику dask-mpi
Я пытаюсь запустить Dask-MPI «Начало работы» ( http://mpi.dask.org/en/latest/ ) в свежей среде Anaconda.
Я настроил среду, используя
conda create -n dask-mpi -c conda-forge python=3.7 dask-mpi
conda activate dask-mpi
Внутри среды я бегу...
78 просмотров
schedule
18.11.2022
Проблема с запуском Dask на AWS Sagemaker и AWS Fargate
Я пытаюсь настроить кластер на AWS для запуска обучения распределенной модели sklearn с помощью dask. Для начала я пытался следовать этому руководству, которое я надеюсь настроить:...
998 просмотров
schedule
19.07.2023
Есть ли в dask эквивалент maxtasksperchild?
У нас есть задания, которые взаимодействуют с машинным кодом, и есть неизбежные утечки памяти, пока рабочий обрабатывает задачу. Простым решением наших проблем был перезапуск воркера после определенного количества задач.
Мы переходим с...
33 просмотров
schedule
23.03.2022