Статьи по тематике emr [amazon-web-services, php, emr, hadoop, amazon]

Вопросы по теме 'emr'

Amazon AWS PHP SDK — Кластер не запускается — Указанное имя ключа SSH недействительно

Я пытаюсь создать страницу PHP для запуска кластера и добавления заданий в поток заданий. $response = $emr->run_job_flow($nameOfRun, array( 'Ec2KeyName' => 'hadoop', 'HadoopVersion' => '0.20',...

3110 просмотров

amazon-web-services php emr

20.12.2023

Как закрыть запущенные задачи карты в Amazon EMR?

У меня есть задание, работающее с использованием Hadoop 0.20 на 32 точечных экземплярах. Работает уже 9 часов без ошибок. За это время он обработал 3800 задач, но я заметил, что только две задачи застряли и работают в одиночку в течение нескольких...

4555 просмотров

hadoop amazon map emr

06.07.2023

Низкая производительность запросов Hive в AWS Elastic MapReduce

У меня возникла странная проблема, и уверяю вас, я много гуглил. Я использую набор кластеров AWS Elastic MapReduce, и у меня есть таблица Hive с примерно 16 разделами. Они созданы из emr-s3distcp (поскольку в исходной корзине s3 находится около...

962 просмотров

hadoop hdfs hive elastic-map-reduce emr

08.03.2022

Доступ к данным в S3 в EMR

У меня есть большой текстовый файл, хранящийся в S3, и я могу получить к нему доступ из EMR (скажем, PIG) напрямую, используя формат «s3:///folder/folder/file» в многоузловом кластере. Мой вопрос касается эффективности передачи данных на узлы...

2268 просмотров

amazon-s3 amazon-emr hadoop emr

12.07.2023

Как остановить установку улья/свиньи в Amazon Data Pipeline?

Мне не нужны Hive или Pig, и Amazon Data Pipeline по умолчанию устанавливает их на любой кластер EMR, который он раскручивает. Из-за этого тестирование занимает больше времени, чем должно. Любые идеи о том, как отключить для установки?

470 просмотров

amazon-data-pipeline emr

08.09.2022

Отправка почты из EC2 или EMR на AWS

Есть ли способ отправлять письма с вложенными отчетами из EMR? Я использую Amazon Web Services. Я не хочу писать скрипт внутри EC2, чтобы получать данные из EMR, добавлять их в cron, а затем ежедневно отправлять почту. Удачи, уже есть планировщик...

1676 просмотров

amazon-web-services amazon-ec2 email hadoop emr

18.04.2023

как запустить/установить oozie в кластере EMR

Я хочу организовать свою работу в EMR. поэтому я подумал, что Узи подойдет. Я сделал несколько POC в рабочем процессе oozie, но в локальном режиме он довольно прост и великолепен. Но я не понимаю, как использовать oozie на кластере EMR....

6136 просмотров

amazon-web-services oozie elastic-map-reduce emr

29.10.2022

Как использовать HDFS с EMR?

Я считаю, что подключение EMR к Amazon S3 крайне ненадежно из-за зависимости от скорости сети. Я могу найти только ссылки для описания местоположения S3. Я хочу использовать EMR с HDFS — как мне это сделать?

9726 просмотров

amazon-s3 amazon-emr hdfs emr

12.02.2023

Что происходит, когда картограф умирает в потоковом задании EMR?

Что произойдет в эластичном задании потоковой передачи mapreduce, если маппер внезапно умрет? Данные, которые уже были обработаны, будут воспроизведены? Если да, то есть ли возможность отключить это? Я спрашиваю, потому что я использую EMR для...

507 просмотров

amazon-web-services streaming hadoop mapreduce emr

23.11.2023

Автоматический куст или каскадирование для ETL в AWS-EMR

У меня есть большой набор данных, находящийся в AWS S3. Эти данные обычно представляют собой транзакционные данные (например, записи о вызовах). Я запускаю последовательность запросов Hive для непрерывного выполнения условий агрегирования и...

267 просмотров

etl hive cascading emr

06.06.2022

Использование данных, представленных в S3, внутри картографов EMR

Мне нужно получить доступ к некоторым данным на этапе карты. Это статический файл, из которого мне нужно прочитать некоторые данные. Я загрузил файл данных на S3. Как я могу получить доступ к этим данным во время работы в EMR? Если я просто...

422 просмотров

amazon-s3 amazon-emr emr

29.04.2023

LeaseExpiredException с пользовательской определяемой пользователем функцией в Hive

У меня есть Hive UDF, который должен извлекать устройство из строки UA. Он использует библиотеку ua-parser: https://github.com/tobie/ua-parser UDF довольно прост: public class DeviceTypeExtractTest extends UDF{ private Text result = new...

75 просмотров

hadoop hive elastic-map-reduce emr

27.03.2024

AWS EMR выполняет сценарий начальной загрузки на всех уже запущенных машинах в кластере.

У меня есть один кластер EMR, который работает круглосуточно и без выходных. Не могу выключить и запустить новую. Я хотел бы выполнить что-то вроде действия начальной загрузки на уже работающем кластере, предпочтительно с использованием Python и...

1788 просмотров

python amazon-web-services amazon-emr boto emr

08.07.2023

Как подавить сообщения INFO для spark-sql, работающего на EMR?

Я запускаю Spark в EMR, как описано в разделе Запуск Spark и Spark SQL в Amazon Elastic MapReduce : В этом учебном пособии вы узнаете, как установить и использовать Spark, быстрый и универсальный механизм для крупномасштабной обработки данных,...

8694 просмотров

apache-spark log4j emr

10.04.2023

boto не нравится параметр EMR BootstrapAction

Пытаюсь запустить кластер AWS EMR с помощью библиотеки boto, все работает. Из-за этого мне нужно установить необходимые библиотеки Python, я попытался добавить шаг действия начальной загрузки, используя boto.emr.bootstrap_action Но это дает...

555 просмотров

python amazon-web-services boto emr

03.08.2023

Отключить отчет о приложении для задания Spark

Когда я отправляю задание Spark (в AWS-EMR), у меня на консоли появляется много «ИНФО-журнала»: 02.15.17 19:44:46 ИНФО пряжа.Клиент: Отчет о применении для application_1455192031517_0006 (состояние: ПРИНЯТО) 02.15.17 19:44:47 ИНФОРМАЦИЯ...

2261 просмотров

apache-spark yarn emr

13.10.2022

Неправильный путь при загрузке данных из S3 во внешнюю таблицу Hive, расположенную в S3 в EMR

У меня есть кластер EMR, на котором я запускаю Hive. У меня есть внешняя таблица на S3, определенная как таковая: +-----------------------------------------------------------------+ | CREATE EXTERNAL TABLE `blah`(...

1127 просмотров

amazon-web-services amazon-s3 hadoop hive emr

01.10.2022

Использование AWS Kinesis в качестве источника данных для задания EMR MapReduce

Я настроил поток AWS Kinesis, который получает данные из нескольких источников. Я хотел бы обрабатывать эти данные несколькими инкрементными пакетами с помощью MapReduce в EMR. Как указать источник ввода в моей работе? Существуют ли какие-либо...

421 просмотров

java amazon-web-services mapreduce amazon-kinesis emr

22.05.2023

TitanDB на Amazon EMR

Я пытаюсь запустить TitanDB (0.54) на Amazon EMR (2.4 + 0.94.18). Когда я пытаюсь подключиться к гремлину, он зависает. ``` ]$ bin/gremlin.sh \,,,/ (o o) -----oOOo-(_)-oOOo----- gremlin> g = TitanFactory.open("hbase:localhost")...

111 просмотров

hbase titan emr

09.08.2022

Транслируемая переменная Spark возвращает NullPointerException при запуске в кластере Amazon EMR.

Переменные, которыми я делюсь через широковещательную рассылку, являются нулевыми в кластере. Мое приложение довольно сложное, но я написал этот небольшой пример, который работает безупречно, когда я запускаю его локально, но не работает в...

3778 просмотров

apache-spark amazon broadcast emr

27.04.2023

Вопросы по теме 'emr'

Похожие вопросы