Pyspark ImportError: нет модуля с именем spark_df_profiling

Я пытаюсь использовать spark_df_profiling в среде блоков данных pyspark. Я получаю следующую ошибку.

> pip install spark_df_profiling
from datetime import datetime
import spark_df_profiling
df = sql("select * from ab.data").cache()
ImportError: No module named 'spark_df_profiling'
---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<command-2036534138125494> in <module>()
      1 from datetime import datetime
----> 2 import spark_df_profiling

Как решить проблему?


person Community    schedule 31.07.2019    source источник
comment
Вы работаете в кластере или в автономном окружении?   -  person howie    schedule 31.07.2019


Ответы (1)


Для Databricks лучше всего использовать метод dbutils.library.installPyPI для установки пакетов.

dbutils.library.installPyPI("spark_df_profiling")

import spark_df_profiling
person Jon    schedule 31.07.2019