Количество картографов в sqoop

Я знаю, что у sqoop есть опция, в которой мы можем установить количество картографов (по умолчанию 4). В проектах реального времени кто решает и как определяется отсутствие картографов? Используем ли мы значение по умолчанию или любое произвольное число? Я знаю некоторые теоретические ссылки, в которых говорится, что количество картографов определяется вашим оборудованием и другими соображениями, но это не дает мне практического способа принятия решения. Любая помощь в том, как это на самом деле делается в производстве, была бы очень уместной.


person Bheem Singh    schedule 29.04.2018    source источник
comment
stackoverflow.com/questions/43199789/ обратитесь к этому   -  person Taha Naqvi    schedule 29.04.2018
comment
Возможный дубликат импорта Sqoop. сколько max mapper может быть выполнено   -  person Taha Naqvi    schedule 29.04.2018
comment
Привет, это не совсем дубликат. Другой вопрос заключается в том, сколько max он может иметь, я больше концентрируюсь на том, что обычно является числом в производственных средах и кто его решает. Спасибо за другую ссылку, она также была полезна для некоторых концепций.   -  person Bheem Singh    schedule 29.04.2018


Ответы (1)


--num-mappers — это подсказка, и Sqoop может не использовать точно указанное число. По умолчанию значение равно 4.

Этот параметр управляет параллелизмом. Например, если вы импортируете данные из базы данных в таблицу Hive, количество картографов указывает на одновременные подключения, которые Sqoop будет устанавливать к базе данных для параллельного извлечения и выполнения передачи данных. С одной стороны, использование большего количества преобразователей приведет к большему параллелизму и более быстрой передаче данных. С другой стороны, это увеличит нагрузку на базу данных.

Увеличение числа картографов сверх определенного предела, вероятно, приведет к перенасыщению базы данных (или администратор баз данных мог установить настроенное ограничение), поэтому производительность будет стагнировать.

Кроме того, в вашем кластере должно быть достаточно свободных ресурсов для поддержки указанного вами количества картографов.

Вы можете выполнить несколько пробных запусков с несколькими различными значениями и посмотреть, что дает наилучшую производительность для вашего набора данных и среды.

person Jagrut Sharma    schedule 29.04.2018
comment
Пожалуйста, не дублируйте ответ на тот же вопрос .. попробуйте пометить его как дубликат, если он есть. - person Taha Naqvi; 29.04.2018