Публикации по теме 'dask'


Coiled: Dask для всех и везде
Специалисты по обработке данных все чаще решают большие проблемы машинного обучения и данных с помощью Python. Но исторически Python боролся с параллельными вычислениями. Это побудило многих из нас в сообществе создать Dask, библиотеку для параллельных вычислений и анализа данных для Python. Dask уже много лет является лучшим решением для масштабируемости в стеке науки о данных Python с глубокой интеграцией с десятками наиболее часто используемых библиотек. Однако, в то время как..

Обработка данных с помощью Dask
Изначально это было опубликовано в нашем техническом блоге, доступном здесь . В современной науке о данных и машинном обучении удивительно легко достичь точки, когда наши типичные инструменты Python - такие пакеты, как numpy , pandas или scikit-learn - на самом деле не подходят для масштабирования с нашими данными с точки зрения времени обработки или использования памяти. Это естественный момент для перехода к инструменту распределенных вычислений (классически, что-то вроде..

Вопросы по теме 'dask'

Может ли даск работать с бесконечным потоковым вводом
Я понимаю, что даск хорошо работает в пакетном режиме, как это def load(filename): ... def clean(data): ... def analyze(sequence_of_data): ... def store(result): with open(..., 'w') as f: f.write(result) dsk =...
882 просмотров
schedule 03.12.2022

Почему запуск .compute() в dask вызывает фатальную ошибку Python: объект GC уже отслежен
Я использую Windows 10 с блокнотом Jupyter версии 4.0.6 с Python 2.7.10 и Anaconda 2.4.0 (64-разрядная версия). Я слежу за блогом/руководством по адресу https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/ : from dask...
934 просмотров
schedule 25.02.2023

Создайте столбец условия if-else в кадре данных dask
Мне нужно создать столбец, основанный на каком-то условии в кадре данных dask. В пандах это довольно просто: ddf['TEST_VAR'] = ['THIS' if x == 200607 else 'NOT THIS' if x == 200608 else 'THAT' if x == 200609 else...
2167 просмотров
schedule 03.03.2022

Ошибка с OMP_NUM_THREADS при использовании распределенного dask
Я использую распространенный фреймворк для параллельных вычислений. В этом случае мой основной вариант использования - NumPy. Когда я включаю код NumPy, который полагается на np.linalg , я получаю ошибку с OMP_NUM_THREADS , которая связана с...
8219 просмотров
schedule 05.07.2022

Как отобразить столбец с помощью dask
Я хочу применить сопоставление к столбцу DataFrame. С Pandas это прямолинейно: df["infos"] = df2["numbers"].map(lambda nr: custom_map(nr, hashmap)) Это записывает столбец infos на основе функции custom_map и использует строки в числах...
9804 просмотров
schedule 28.07.2022

Как эффективно отправлять задачи с большими аргументами в распределенном Dask?
Я хочу отправлять функции с Dask, которые имеют большие (гигабайтные) аргументы. Как лучше всего это сделать? Я хочу запускать эту функцию много раз с разными (маленькими) параметрами. Пример (плохой) Здесь используется интерфейс...
5489 просмотров
schedule 09.04.2022

Scikit-Learn с Dask-Distributed с использованием вложенного параллелизма?
Например, предположим, что у меня есть код: vectorizer = CountVectorizer(input=u'filename', decode_error=u'replace') classifier = OneVsRestClassifier(LinearSVC()) pipeline = Pipeline([ ('vect', vectorizer), ('clf', classifier)]) with...
473 просмотров

Ошибка при экспорте кадра данных dask в csv
В моем кадре данных dask около 120 мм строк и 4 столбца: df_final.dtypes cust_id int64 score float64 total_qty float64 update_score float64 dtype: object и я делаю эту операцию на ноутбуках jupyter, подключенных к...
2051 просмотров
schedule 28.02.2023

локальный планировщик dask и gevent
Я использую distributed.Client для локальных вычислений. Я также хочу создать гринлет gevent из основного потока, чтобы провести несвязанный мониторинг. Использование метода patch_all() gevent превратит нативные потоки в гринлеты. Учитывая, что...
277 просмотров
schedule 30.07.2023

Как повысить производительность параллельных вычислений с помощью dask
У меня есть фреймворк pandas и преобразован в фреймворк dask df.shape = (60893, 2) df2.shape = (7254909, 2) df['name_clean'] = df['Name'].apply(lambda x :re.sub('\W+','',x).lower(),meta=('x', 'str')) names =...
310 просмотров
schedule 17.06.2022

Объединить файлы csv с помощью dask
Я новичок в питоне. Я использую dask для чтения 5 больших (> 1 ГБ) файлов csv и слияния (как SQL) их в фрейм данных dask. Теперь я пытаюсь записать объединенный результат в один CSV. Я использовал compute () в кадре данных dask для сбора данных в...
3301 просмотров
schedule 06.06.2023

Как отменить регистрацию всех ProgressBars?
В документации Dask объясняется, что ProgressBar можно отменить, вызвав pbar.unregister() , где pbar — соответствующий экземпляр ProgressBar. Однако этот метод работает только в том случае, если у пользователя есть доступ к этому экземпляру...
69 просмотров
schedule 22.04.2023

dask out-of-core матрица многократного планирования
Я пытаюсь вычислить матричное произведение Y=XX^T для матрицы X размером 10 000 * 800 000. Матрица X хранится на диске в файле h5py. Результирующий Y должен быть матрицей 10 000 * 10 000, хранящейся в том же файле h5py. Вот воспроизводимый пример...
644 просмотров
schedule 13.09.2022

Понимание поведения памяти распределенного Dask
Подобно этому вопросу , у меня возникают проблемы с памятью при распространении Dask. Однако в моем случае объяснение не в том, что клиент пытается собрать большой объем данных. Проблему можно проиллюстрировать на очень простом графике задач:...
3275 просмотров
schedule 23.07.2022

DASK с локальными файлами в системах WORKER
Я работаю с несколькими системами как рабочие. В каждой рабочей системе часть данных хранится локально. И я хочу, чтобы вычисления выполнялись каждым рабочим только в соответствующем файле. Я пробовал использовать:...
236 просмотров
schedule 16.10.2022

BokehWebInterface не работает для Dask Distributed
Я обновил свой Dask с версии 0.14.3 до 0.15.0 и распространял с 1.16.3 до 1.17.0. BokehWebInterface был удален из этой версии. Домашняя страница может быть загружена http://localhost:8787 , но я не могу получить доступ к задачам, статусу,...
201 просмотров
schedule 13.03.2022

построение табличных данных с помощью голографических обзоров
Я хотел бы построить такие данные | |abstime |hostname |type |id |cpu |mem |reltime| ----------------------------------------------------------------------------- |0 |2017-06-21 02:45:39 |hw03 |ps |0...
1057 просмотров
schedule 30.07.2023

как хранить рабочие локальные переменные в dask / распределенном
Используя dask 0.15.0, распространял 1.17.1. Я хочу запомнить некоторые вещи для каждого работника, например, клиент для доступа к облачному хранилищу Google, потому что создание его экземпляра дорого. Я бы предпочел хранить это в каком-то...
855 просмотров
schedule 25.11.2022

Взрыв памяти при использовании вычислений Dask или сохранение с задержкой Dask
Я пытаюсь обработать данные нескольких субъектов в одном кадре данных. Существует> 30 субъектов и 14 вычислений на субъект, это большой набор данных, но больше 5 взрывает память на узле планировщика без запуска каких-либо рабочих процессов на том же...
480 просмотров
schedule 05.07.2023

Внешняя обработка разреженных массивов CSR
Как можно применить некоторую функцию параллельно к частям разреженного массива CSR, сохраненному на диске, с помощью Python? Последовательно это может быть сделано, например. сохраняя массив CSR с помощью joblib.dump , открывая его с помощью...
1650 просмотров
schedule 27.11.2022