Вопросы по теме 'emr'

Amazon AWS PHP SDK — Кластер не запускается — Указанное имя ключа SSH недействительно
Я пытаюсь создать страницу PHP для запуска кластера и добавления заданий в поток заданий. $response = $emr->run_job_flow($nameOfRun, array( 'Ec2KeyName' => 'hadoop', 'HadoopVersion' => '0.20',...
3110 просмотров
schedule 20.12.2023

Как закрыть запущенные задачи карты в Amazon EMR?
У меня есть задание, работающее с использованием Hadoop 0.20 на 32 точечных экземплярах. Работает уже 9 часов без ошибок. За это время он обработал 3800 задач, но я заметил, что только две задачи застряли и работают в одиночку в течение нескольких...
4555 просмотров
schedule 06.07.2023

Низкая производительность запросов Hive в AWS Elastic MapReduce
У меня возникла странная проблема, и уверяю вас, я много гуглил. Я использую набор кластеров AWS Elastic MapReduce, и у меня есть таблица Hive с примерно 16 разделами. Они созданы из emr-s3distcp (поскольку в исходной корзине s3 находится около...
962 просмотров
schedule 08.03.2022

Доступ к данным в S3 в EMR
У меня есть большой текстовый файл, хранящийся в S3, и я могу получить к нему доступ из EMR (скажем, PIG) напрямую, используя формат «s3:///folder/folder/file» в многоузловом кластере. Мой вопрос касается эффективности передачи данных на узлы...
2268 просмотров
schedule 12.07.2023

Как остановить установку улья/свиньи в Amazon Data Pipeline?
Мне не нужны Hive или Pig, и Amazon Data Pipeline по умолчанию устанавливает их на любой кластер EMR, который он раскручивает. Из-за этого тестирование занимает больше времени, чем должно. Любые идеи о том, как отключить для установки?
470 просмотров
schedule 08.09.2022

Отправка почты из EC2 или EMR на AWS
Есть ли способ отправлять письма с вложенными отчетами из EMR? Я использую Amazon Web Services. Я не хочу писать скрипт внутри EC2, чтобы получать данные из EMR, добавлять их в cron, а затем ежедневно отправлять почту. Удачи, уже есть планировщик...
1676 просмотров

как запустить/установить oozie в кластере EMR
Я хочу организовать свою работу в EMR. поэтому я подумал, что Узи подойдет. Я сделал несколько POC в рабочем процессе oozie, но в локальном режиме он довольно прост и великолепен. Но я не понимаю, как использовать oozie на кластере EMR....
6136 просмотров

Как использовать HDFS с EMR?
Я считаю, что подключение EMR к Amazon S3 крайне ненадежно из-за зависимости от скорости сети. Я могу найти только ссылки для описания местоположения S3. Я хочу использовать EMR с HDFS — как мне это сделать?
9726 просмотров
schedule 12.02.2023

Что происходит, когда картограф умирает в потоковом задании EMR?
Что произойдет в эластичном задании потоковой передачи mapreduce, если маппер внезапно умрет? Данные, которые уже были обработаны, будут воспроизведены? Если да, то есть ли возможность отключить это? Я спрашиваю, потому что я использую EMR для...
507 просмотров

Автоматический куст или каскадирование для ETL в AWS-EMR
У меня есть большой набор данных, находящийся в AWS S3. Эти данные обычно представляют собой транзакционные данные (например, записи о вызовах). Я запускаю последовательность запросов Hive для непрерывного выполнения условий агрегирования и...
267 просмотров
schedule 06.06.2022

Использование данных, представленных в S3, внутри картографов EMR
Мне нужно получить доступ к некоторым данным на этапе карты. Это статический файл, из которого мне нужно прочитать некоторые данные. Я загрузил файл данных на S3. Как я могу получить доступ к этим данным во время работы в EMR? Если я просто...
422 просмотров
schedule 29.04.2023

LeaseExpiredException с пользовательской определяемой пользователем функцией в Hive
У меня есть Hive UDF, который должен извлекать устройство из строки UA. Он использует библиотеку ua-parser: https://github.com/tobie/ua-parser UDF довольно прост: public class DeviceTypeExtractTest extends UDF{ private Text result = new...
75 просмотров
schedule 27.03.2024

AWS EMR выполняет сценарий начальной загрузки на всех уже запущенных машинах в кластере.
У меня есть один кластер EMR, который работает круглосуточно и без выходных. Не могу выключить и запустить новую. Я хотел бы выполнить что-то вроде действия начальной загрузки на уже работающем кластере, предпочтительно с использованием Python и...
1788 просмотров

Как подавить сообщения INFO для spark-sql, работающего на EMR?
Я запускаю Spark в EMR, как описано в разделе Запуск Spark и Spark SQL в Amazon Elastic MapReduce : В этом учебном пособии вы узнаете, как установить и использовать Spark, быстрый и универсальный механизм для крупномасштабной обработки данных,...
8694 просмотров
schedule 10.04.2023

boto не нравится параметр EMR BootstrapAction
Пытаюсь запустить кластер AWS EMR с помощью библиотеки boto, все работает. Из-за этого мне нужно установить необходимые библиотеки Python, я попытался добавить шаг действия начальной загрузки, используя boto.emr.bootstrap_action Но это дает...
555 просмотров
schedule 03.08.2023

Отключить отчет о приложении для задания Spark
Когда я отправляю задание Spark (в AWS-EMR), у меня на консоли появляется много «ИНФО-журнала»: 02.15.17 19:44:46 ИНФО пряжа.Клиент: Отчет о применении для application_1455192031517_0006 (состояние: ПРИНЯТО) 02.15.17 19:44:47 ИНФОРМАЦИЯ...
2261 просмотров
schedule 13.10.2022

Неправильный путь при загрузке данных из S3 во внешнюю таблицу Hive, расположенную в S3 в EMR
У меня есть кластер EMR, на котором я запускаю Hive. У меня есть внешняя таблица на S3, определенная как таковая: +-----------------------------------------------------------------+ | CREATE EXTERNAL TABLE `blah`(...
1127 просмотров

Использование AWS Kinesis в качестве источника данных для задания EMR MapReduce
Я настроил поток AWS Kinesis, который получает данные из нескольких источников. Я хотел бы обрабатывать эти данные несколькими инкрементными пакетами с помощью MapReduce в EMR. Как указать источник ввода в моей работе? Существуют ли какие-либо...
421 просмотров

TitanDB на Amazon EMR
Я пытаюсь запустить TitanDB (0.54) на Amazon EMR (2.4 + 0.94.18). Когда я пытаюсь подключиться к гремлину, он зависает. ``` ]$ bin/gremlin.sh \,,,/ (o o) -----oOOo-(_)-oOOo----- gremlin> g = TitanFactory.open("hbase:localhost")...
111 просмотров
schedule 09.08.2022

Транслируемая переменная Spark возвращает NullPointerException при запуске в кластере Amazon EMR.
Переменные, которыми я делюсь через широковещательную рассылку, являются нулевыми в кластере. Мое приложение довольно сложное, но я написал этот небольшой пример, который работает безупречно, когда я запускаю его локально, но не работает в...
3778 просмотров
schedule 27.04.2023