Публикации по теме 'dask'
Coiled: Dask для всех и везде
Специалисты по обработке данных все чаще решают большие проблемы машинного обучения и данных с помощью Python. Но исторически Python боролся с параллельными вычислениями. Это побудило многих из нас в сообществе создать Dask, библиотеку для параллельных вычислений и анализа данных для Python.
Dask уже много лет является лучшим решением для масштабируемости в стеке науки о данных Python с глубокой интеграцией с десятками наиболее часто используемых библиотек. Однако, в то время как..
Обработка данных с помощью Dask
Изначально это было опубликовано в нашем техническом блоге, доступном здесь .
В современной науке о данных и машинном обучении удивительно легко достичь точки, когда наши типичные инструменты Python - такие пакеты, как numpy , pandas или scikit-learn - на самом деле не подходят для масштабирования с нашими данными с точки зрения времени обработки или использования памяти. Это естественный момент для перехода к инструменту распределенных вычислений (классически, что-то вроде..
Вопросы по теме 'dask'
Может ли даск работать с бесконечным потоковым вводом
Я понимаю, что даск хорошо работает в пакетном режиме, как это
def load(filename):
...
def clean(data):
...
def analyze(sequence_of_data):
...
def store(result):
with open(..., 'w') as f:
f.write(result)
dsk =...
882 просмотров
schedule
03.12.2022
Почему запуск .compute() в dask вызывает фатальную ошибку Python: объект GC уже отслежен
Я использую Windows 10 с блокнотом Jupyter версии 4.0.6 с Python 2.7.10 и Anaconda 2.4.0 (64-разрядная версия).
Я слежу за блогом/руководством по адресу https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/ :
from dask...
934 просмотров
schedule
25.02.2023
Создайте столбец условия if-else в кадре данных dask
Мне нужно создать столбец, основанный на каком-то условии в кадре данных dask. В пандах это довольно просто:
ddf['TEST_VAR'] = ['THIS' if x == 200607 else
'NOT THIS' if x == 200608 else
'THAT' if x == 200609 else...
2167 просмотров
schedule
03.03.2022
Ошибка с OMP_NUM_THREADS при использовании распределенного dask
Я использую распространенный фреймворк для параллельных вычислений. В этом случае мой основной вариант использования - NumPy. Когда я включаю код NumPy, который полагается на np.linalg , я получаю ошибку с OMP_NUM_THREADS , которая связана с...
8219 просмотров
schedule
05.07.2022
Как отобразить столбец с помощью dask
Я хочу применить сопоставление к столбцу DataFrame. С Pandas это прямолинейно:
df["infos"] = df2["numbers"].map(lambda nr: custom_map(nr, hashmap))
Это записывает столбец infos на основе функции custom_map и использует строки в числах...
9804 просмотров
schedule
28.07.2022
Как эффективно отправлять задачи с большими аргументами в распределенном Dask?
Я хочу отправлять функции с Dask, которые имеют большие (гигабайтные) аргументы. Как лучше всего это сделать? Я хочу запускать эту функцию много раз с разными (маленькими) параметрами.
Пример (плохой)
Здесь используется интерфейс...
5489 просмотров
schedule
09.04.2022
Scikit-Learn с Dask-Distributed с использованием вложенного параллелизма?
Например, предположим, что у меня есть код:
vectorizer = CountVectorizer(input=u'filename', decode_error=u'replace')
classifier = OneVsRestClassifier(LinearSVC())
pipeline = Pipeline([
('vect', vectorizer),
('clf', classifier)])
with...
473 просмотров
schedule
19.07.2022
Ошибка при экспорте кадра данных dask в csv
В моем кадре данных dask около 120 мм строк и 4 столбца:
df_final.dtypes
cust_id int64
score float64
total_qty float64
update_score float64
dtype: object
и я делаю эту операцию на ноутбуках jupyter, подключенных к...
2051 просмотров
schedule
28.02.2023
локальный планировщик dask и gevent
Я использую distributed.Client для локальных вычислений. Я также хочу создать гринлет gevent из основного потока, чтобы провести несвязанный мониторинг. Использование метода patch_all() gevent превратит нативные потоки в гринлеты. Учитывая, что...
277 просмотров
schedule
30.07.2023
Как повысить производительность параллельных вычислений с помощью dask
У меня есть фреймворк pandas и преобразован в фреймворк dask
df.shape = (60893, 2)
df2.shape = (7254909, 2)
df['name_clean'] = df['Name'].apply(lambda x :re.sub('\W+','',x).lower(),meta=('x', 'str'))
names =...
310 просмотров
schedule
17.06.2022
Объединить файлы csv с помощью dask
Я новичок в питоне. Я использую dask для чтения 5 больших (> 1 ГБ) файлов csv и слияния (как SQL) их в фрейм данных dask. Теперь я пытаюсь записать объединенный результат в один CSV. Я использовал compute () в кадре данных dask для сбора данных в...
3301 просмотров
schedule
06.06.2023
Как отменить регистрацию всех ProgressBars?
В документации Dask объясняется, что ProgressBar можно отменить, вызвав pbar.unregister() , где pbar — соответствующий экземпляр ProgressBar.
Однако этот метод работает только в том случае, если у пользователя есть доступ к этому экземпляру...
69 просмотров
schedule
22.04.2023
dask out-of-core матрица многократного планирования
Я пытаюсь вычислить матричное произведение Y=XX^T для матрицы X размером 10 000 * 800 000. Матрица X хранится на диске в файле h5py. Результирующий Y должен быть матрицей 10 000 * 10 000, хранящейся в том же файле h5py. Вот воспроизводимый пример...
644 просмотров
schedule
13.09.2022
Понимание поведения памяти распределенного Dask
Подобно этому вопросу , у меня возникают проблемы с памятью при распространении Dask. Однако в моем случае объяснение не в том, что клиент пытается собрать большой объем данных.
Проблему можно проиллюстрировать на очень простом графике задач:...
3275 просмотров
schedule
23.07.2022
DASK с локальными файлами в системах WORKER
Я работаю с несколькими системами как рабочие. В каждой рабочей системе часть данных хранится локально. И я хочу, чтобы вычисления выполнялись каждым рабочим только в соответствующем файле.
Я пробовал использовать:...
236 просмотров
schedule
16.10.2022
BokehWebInterface не работает для Dask Distributed
Я обновил свой Dask с версии 0.14.3 до 0.15.0 и распространял с 1.16.3 до 1.17.0. BokehWebInterface был удален из этой версии. Домашняя страница может быть загружена http://localhost:8787 , но я не могу получить доступ к задачам, статусу,...
201 просмотров
schedule
13.03.2022
построение табличных данных с помощью голографических обзоров
Я хотел бы построить такие данные
| |abstime |hostname |type |id |cpu |mem |reltime|
-----------------------------------------------------------------------------
|0 |2017-06-21 02:45:39 |hw03 |ps |0...
1057 просмотров
schedule
30.07.2023
как хранить рабочие локальные переменные в dask / распределенном
Используя dask 0.15.0, распространял 1.17.1.
Я хочу запомнить некоторые вещи для каждого работника, например, клиент для доступа к облачному хранилищу Google, потому что создание его экземпляра дорого. Я бы предпочел хранить это в каком-то...
855 просмотров
schedule
25.11.2022
Взрыв памяти при использовании вычислений Dask или сохранение с задержкой Dask
Я пытаюсь обработать данные нескольких субъектов в одном кадре данных. Существует> 30 субъектов и 14 вычислений на субъект, это большой набор данных, но больше 5 взрывает память на узле планировщика без запуска каких-либо рабочих процессов на том же...
480 просмотров
schedule
05.07.2023
Внешняя обработка разреженных массивов CSR
Как можно применить некоторую функцию параллельно к частям разреженного массива CSR, сохраненному на диске, с помощью Python? Последовательно это может быть сделано, например. сохраняя массив CSR с помощью joblib.dump , открывая его с помощью...
1650 просмотров
schedule
27.11.2022