Sagemaker PySpark: ядро ​​мертвое

Я выполнил инструкции здесь, чтобы настроить кластер EMR и записную книжку SageMaker. У меня не было ошибок до последнего шага.

Когда я открываю новый блокнот в Sagemaker, я получаю сообщение:

The kernel appears to have died. It will restart automatically.

А потом:

        The kernel has died, and the automatic restart has failed.
        It is possible the kernel cannot be restarted. 
        If you are not able to restart the kernel, you will still be able to save the 
notebook, but running code will no longer work until the notebook is reopened.

Это происходит только тогда, когда я использую ядро ​​pyspark / Sparkmagic. Ноутбуки, открытые с помощью ядра Conda или любого другого ядра, работают нормально.

Мой кластер EMR настроен точно так же, как в инструкции, с добавленным правилом:

[
  {
    "Classification": "spark",
    "Properties": {
      "maximizeResourceAllocation": "true"
    }
  }
]

Я был бы признателен за любые указатели на то, почему это происходит, и как я могу отлаживать / исправлять.

P.S .: Раньше я делал это успешно, без каких-либо проблем. Когда я попытался повторить это сегодня, я столкнулся с этой проблемой. Я попытался воссоздать кластеры EMR и записные книжки Sagemaker, но это не помогло.


person c3p0    schedule 07.06.2018    source источник


Ответы (1)


Благодарим вас за использование Amazon SageMaker.

Проблема здесь в том, что Pandas 0.23.0 изменил расположение основного класса с именем DataError, а SparkMagic не был обновлен, чтобы требовать DataError из правильного пространства имен.

Обходной путь для этой проблемы - понизить версию Pandas в экземпляре SageMaker Notebook с pip install pandas==0.22.0.

Дополнительную информацию можно получить в этом открытом выпуске github https://github.com/jupyter-incubator/sparkmagic/issues/458.

Сообщите нам, если мы можем чем-то помочь.

Спасибо,
Нилам

person Neelam Gehlot    schedule 10.07.2018