Мне было интересно, может ли кто-нибудь помочь мне с этой проблемой при развертывании искрового кластера с помощью инструмента bdutil. При увеличении общего количества ядер (>= 1024) он все время выходил из строя по следующим причинам:
Некоторая машина никогда не может быть sshable, например «Вт, 8 декабря, 13:45:14 PST 2015: 'hadoop-w-5' еще не sshable (255); спящий"
Некоторые узлы выходят из строя с ошибкой «Exited 100» при развертывании рабочих узлов Spark, например «Вт, 8 декабря, 15:28:31 PST 2015: Exited 100: gcloud --project=cs-bwamem --quiet --verbosity=info вычислить ssh hadoop-w-6 --command=sudo su -l -c "cd ${PWD} && ./deploy-core-setup.sh" 2>>deploy-core-setup_deploy.stderr 1>>deploy-core-setup_deploy .stdout --ssh-flag=-tt --ssh-flag=-oServerAliveInterval=60 --ssh-flag=-oServerAliveCountMax=3 --ssh-flag=-oConnectTimeout=30 --zone=us-central1-f"
В лог-файле написано:
hadoop-w-40: ==> deploy-core-setup_deploy.stderr ‹==
hadoop-w-40: dpkg-query: пакет «openjdk-7-jdk» не установлен, и информация недоступна
hadoop-w-40: Используйте dpkg --info (= dpkg-deb --info) для проверки архивных файлов,
hadoop-w-40: и dpkg --contents (= dpkg-deb --contents), чтобы просмотреть их содержимое.
hadoop-w-40: не удалось получить http://httpredir.debian.org/debian/pool/main/x/xml-core/xml-core_0.13+nmu2_all.deb Ошибка чтения с сервера. Закрытое соединение удаленного конца [IP: 128.31.0.66 80]
hadoop-w-40: E: Не удалось получить некоторые архивы, может быть, запустить apt-get update или попробовать --fix-missing?
Я пробовал 16-ядерные 128-узлы, 32-ядерные 64-узла, 32-ядерные 32-узла и другие конфигурации с более чем 1024-ядерными ядрами, но будет отображаться либо вышеуказанная причина 1, либо 2.
Я также попытался изменить ssh-флаг, чтобы изменить ConnectTimeout на 1200 с, и изменить bdutil_env.sh, чтобы установить интервал опроса на 30 с, 60 с, ..., ни один из них не работает. Всегда будут какие-то узлы, которые выходят из строя.
Вот одна из конфигураций, которые я использовал:
время ./bdutil \ --bucket $BUCKET \ --force \ --machine_type n1-highmem-32 \ --master_machine_type n1-highmem-32 \ --num_workers 64 \ --project $PROJECT \ --upload_files ${JAR_FILE } \ --env_var_files hadoop2_env.sh,extensions/spark/spark_env.sh \ развернуть