Как использовать корзину GCS в качестве источника файла рабочего процесса для Oozie в Dataproc

Мы переносим наш кластер EMR на Dataproc и полагаемся на Oozie для выполнения наших рабочих процессов. Первая проблема заключается в том, как загрузить корзину workflow.xml из облачного хранилища. Раньше мы делали это с помощью S3:

oozie.coord.application.path=s3://my_workflow/workflows/daily

Попытка использовать тот же подход в GCS вообще не работает.

oozie.coord.application.path=gs://my_workflow/workflows/daily

Когда я пытаюсь запустить задание Oozie, я получаю эту ошибку:

gs URI scheme not supported

Нужно ли вручную настраивать схему на Oozie? Я использую действие инициализации Dataproc для развертывания Oozie.


person Bruno Moreira    schedule 15.04.2020    source источник


Ответы (1)


Я воспроизвел вашу проблему. Кажется, действие инициализации Oozie пока не поддерживает загрузку workflow.xml из GCS. Я думаю, вы можете сообщить об ошибке для действия инициализации, но пока вам, возможно, придется поместить файл в HDFS.

Что касается исправления, оно требует:

1) В /etc/oozie/conf/oozie-site.xml добавить

<property>
  <name>oozie.service.HadoopAccessorService.supported.filesystems</name>     
   <value>hdfs,gs</value>
   <decscription>...</decscription>
</property>

2) В /etc/oozie/conf/hadoop-conf/core-site.xml добавить

<property>
  <name>fs.AbstractFileSystem.gs.impl</name>
  <value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS</value>
  <description>The AbstractFileSystem for gs: uris.</description>
</property>
<property>
  <name>google.cloud.auth.service.account.enable</name>
  <value>false</value>
  <description>
    Whether to use a service account for GCS authorization.
    Setting this property to `false` will disable use of service accounts for
    authentication.
  </description>
</property>

3) Скопируйте gcs-connector.jar из /usr/lib/hadoop/lib/ в /usr/lib/oozie/lib.

4) Перезапустите службу Ooozi с помощью

sudo systemctl restart oozie.service
person Dagang    schedule 15.04.2020