Как последовательно запускать запросы Hue Hive

Я настроил Cloudera Hue и имею кластер мастер-узла на 200 Гб и 16 Гб ОЗУ и 3 датнода по 150 Гб и 8 Гб ОЗУ.

У меня есть база данных размером около 70 ГБ. Проблема в том, что когда я пытаюсь запустить запросы Hive из редактора кустов (HUE GUI). Если я отправляю от 5 до 6 запросов (для выполнения), задания запускаются, но они зависают и никогда не запускаются. Как я могу запускать запросы последовательно. Я имею в виду, хотя я могу отправлять запросы, но новый запрос должен начинаться только после завершения предыдущего. Есть ли способ, чтобы я мог запускать запросы один за другим?


person Madhav Mishra    schedule 23.09.2014    source источник


Ответы (3)


Hue отправляет все запросы, если они зависают, это означает, что вы, вероятно, столкнулись с неправильной конфигурацией в YARN, например, ошибка № 5 person Romain    schedule 23.09.2014


Вы можете выполнить все свои запросы за один раз, разделив их с помощью ';' в ХУЭ.

Например:

Запрос1; Запрос2; Запрос3

В этом случае запрос1, запрос2 и запрос3 будут выполняться последовательно друг за другом.

person Amar    schedule 24.09.2014

поэтому весь поток YARN/MR2 выглядит следующим образом

  1. запрос отправляется из редактора запросов HUE Hive
  2. задание запущено, и менеджер ресурсов запускает мастер приложения на одном из узлов данных
  3. этот мастер приложений запрашивает ресурсы у менеджера ресурсов (например, 2 * 1 ГБ / 1 ядро)
  4. диспетчер ресурсов предоставляет эти ресурсы (называемые менеджерами узлов, которые затем запускают карту и сокращают задачи) мастеру приложения.

так что теперь распределение ресурсов обрабатывается YARN. В случае кластера cloudera динамические пулы ресурсов (своего рода очередь) — это место, где отправляются задания, а затем распределение ресурсов выполняется пряжей для этих заданий. по умолчанию значение максимального количества одновременных заданий установлено таким образом, что диспетчер ресурсов выделяет весь ресурс всем заданиям/мастерам приложений, не оставляя места для контейнеров задач (что требуется на более позднем этапе для запуска задач мастерами приложений).

http://www.cloudera.com/content/cloudera/en/resources/library/recordedwebinar/introduction-to-yarn-and-mapreduce-2-slides.html

поэтому, если мы отправим большое количество запросов в редактор HUE Hive для выполнения, они будут отправлены как задания одновременно, а мастерам приложений для них будут выделены ресурсы, не оставив места для контейнеров задач, и, таким образом, все задания будут в состоянии ожидания.

Решение, как указано выше @Romain

установите значение максимального количества одновременных заданий в соответствии с размером и возможностями кластера. в моем случае это сработало для значения 4, теперь только 4 задания будут выполняться одновременно из пула, и им будут выделены ресурсы менеджером ресурсов.

person Madhav Mishra    schedule 24.09.2014