У меня есть фреймворк pandas и преобразован в фреймворк dask
df.shape = (60893, 2)
df2.shape = (7254909, 2)
df['name_clean'] = df['Name'].apply(lambda x :re.sub('\W+','',x).lower(),meta=('x', 'str'))
names = df['name_clean'].drop_duplicates().values.compute()
df2['found'] = df2['name_clean2'].apply(lambda x: any(name in x for name in names),meta=('x','str')) ~ takes 834 ms
df2.head(10) ~ takes 3 min 54 sec
Как я могу увидеть форму фрейма данных dask?
Почему так много времени для .head ()? Правильно ли я это делаю?
.values
является dask.array. Возможно, вы хотите позвонить.compute()
вместо.values
? - person MRocklin   schedule 14.03.2017