Алгоритм кластеризации работает, хотя время ожидания Jupyter Notebook Gateway истекло?

Я использую алгоритм sklearn DBSCAN для набора данных с размерностью 300000x50 в Jupyter Notebook на AWS Sagemaker (вычислительный экземпляр "ml.t2.medium"). Набор данных содержит векторы признаков с 1: s и 0: s.

После запуска ячейки через некоторое время в правом верхнем углу появляется оранжевая подсказка «Тайм-аут шлюза». Значок исчезает, когда вы щелкаете по нему, не предоставляя дополнительной информации. Записная книжка не отвечает, пока вы не перезапустите экземпляр записной книжки.

Я пробовал разные значения для параметров eps и min_samples, но безрезультатно.

db = DBSCAN(eps = 0.1, min_samples = 100).fit(transformed_vectors)

Означает ли «Тайм-аут шлюза», что ядро ​​ноутбука вылетело из строя, или можно ожидать каких-либо результатов, дождавшись?

Пока расчет идет около 2 часов.

Тайм-аут шлюза


person jks on you    schedule 11.07.2019    source источник
comment
Дополнительная информация: DBSCAN работает хорошо, когда я беру меньшую выборку (n = 25000 ... 50000) из исходных 300000 строк.   -  person jks on you    schedule 11.07.2019


Ответы (1)


вы всегда можете выбрать больший размер для своего экземпляра ноутбука (ml.t2.medium довольно маленький), но я думаю, что лучший способ - обучить ваш код на управляемом экземпляре SageMaker. Sklearn встроен в SageMaker, поэтому все, что вам нужно сделать, это принести свой скрипт, например:

from sagemaker.sklearn.estimator import SKLearn

sklearn = SKLearn(
    entry_point="my_code.py",
    train_instance_type="ml.c4.xlarge",
    role=role,
    sagemaker_session=sagemaker_session)

Вот полный пример: https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/scikit_learn_iris/Scikit-learn%20Estimator%20Example%20With%20Batch%20Transform.ipynb

person Julien Simon    schedule 20.07.2019
comment
Спасибо за ответ, он уже работает с более тяжелым вычислительным экземпляром! - person jks on you; 22.07.2019