Ссылка журнала неудачного задания Hive, отправленного в Dataproc через Airflow

Я отправил задание Hive с помощью DataprocWorkflowTemplateInstantiateInlineOperator Airflow в кластер Dataproc. Когда некоторые задания терпят неудачу в googlecloud-> dataproc-> jobs, я вижу ссылку на журнал с ошибкой:

Агент Google Cloud Dataproc сообщает об ошибке задания. Если журналы доступны, их можно найти в gs: // dataproc-abcde12-efghi23-jklmn12-uk / google-cloud-dataproc-metainfo / 12354a681fgh161 / jobs / job1-abdc12jssa / driveroutput.

Могу ли я получить эту ссылку журнала (например, gs://dataproc-abcde12-efghi23-jklmn12-uk/google-cloud-dataproc-metainfo/12354a681fgh161/jobs/job1-abdc12jssa/driveroutput) через Airflow?

Я проверил оператор gcp_dataproc_hook.py на все, что указывает на ссылку журнала, чтобы я мог ее получить, но не нашел ничего полезного.


comment
Похоже, это уже регистрируется: github. com / apache / airflow / blob / master / airflow / contrib / hooks /   -  person tix    schedule 13.02.2019


Ответы (1)


Похоже, что еще нет автоматически созданной удобной ссылки для получения вывода в журналах Airflow, но ее, безусловно, можно добавить (если вы чувствуете себя смелым, может быть стоит отправить запрос на перенос в Airflow самостоятельно! Или иным образом заполнить запрос функции https://issues.apache.org/jira/browse/AIRFLOW).

В общем, вы можете создать удобный URL-адрес или команду CLI для копирования / вставки с заданным идентификатором задания; если вы хотите напрямую использовать пользовательский интерфейс Dataproc, просто создайте URL-адрес формы:

https://cloud.google.com/console/dataproc/jobs/%s/?project=%s&region=%s

с параметрами

jobId, projectId, region

В качестве альтернативы вы можете ввести:

gcloud dataproc jobs wait ${JOBID} --project ${PROJECTID} --region ${REGION}

Более прямой подход с URI:

gsutil cat ${LOG_LINK}*

с глобальным выражением в конце этого URL-адреса (это не просто один файл, это набор файлов).

person Dennis Huo    schedule 14.03.2019