Вопросы по теме 'emr'
Amazon AWS PHP SDK — Кластер не запускается — Указанное имя ключа SSH недействительно
Я пытаюсь создать страницу PHP для запуска кластера и добавления заданий в поток заданий.
$response = $emr->run_job_flow($nameOfRun, array(
'Ec2KeyName' => 'hadoop',
'HadoopVersion' => '0.20',...
3110 просмотров
schedule
20.12.2023
Как закрыть запущенные задачи карты в Amazon EMR?
У меня есть задание, работающее с использованием Hadoop 0.20 на 32 точечных экземплярах. Работает уже 9 часов без ошибок. За это время он обработал 3800 задач, но я заметил, что только две задачи застряли и работают в одиночку в течение нескольких...
4555 просмотров
schedule
06.07.2023
Низкая производительность запросов Hive в AWS Elastic MapReduce
У меня возникла странная проблема, и уверяю вас, я много гуглил.
Я использую набор кластеров AWS Elastic MapReduce, и у меня есть таблица Hive с примерно 16 разделами. Они созданы из emr-s3distcp (поскольку в исходной корзине s3 находится около...
962 просмотров
schedule
08.03.2022
Доступ к данным в S3 в EMR
У меня есть большой текстовый файл, хранящийся в S3, и я могу получить к нему доступ из EMR (скажем, PIG) напрямую, используя формат «s3:///folder/folder/file» в многоузловом кластере.
Мой вопрос касается эффективности передачи данных на узлы...
2268 просмотров
schedule
12.07.2023
Как остановить установку улья/свиньи в Amazon Data Pipeline?
Мне не нужны Hive или Pig, и Amazon Data Pipeline по умолчанию устанавливает их на любой кластер EMR, который он раскручивает. Из-за этого тестирование занимает больше времени, чем должно. Любые идеи о том, как отключить для установки?
470 просмотров
schedule
08.09.2022
Отправка почты из EC2 или EMR на AWS
Есть ли способ отправлять письма с вложенными отчетами из EMR? Я использую Amazon Web Services. Я не хочу писать скрипт внутри EC2, чтобы получать данные из EMR, добавлять их в cron, а затем ежедневно отправлять почту. Удачи, уже есть планировщик...
1676 просмотров
schedule
18.04.2023
как запустить/установить oozie в кластере EMR
Я хочу организовать свою работу в EMR. поэтому я подумал, что Узи подойдет. Я сделал несколько POC в рабочем процессе oozie, но в локальном режиме он довольно прост и великолепен.
Но я не понимаю, как использовать oozie на кластере EMR....
6136 просмотров
schedule
29.10.2022
Как использовать HDFS с EMR?
Я считаю, что подключение EMR к Amazon S3 крайне ненадежно из-за зависимости от скорости сети.
Я могу найти только ссылки для описания местоположения S3. Я хочу использовать EMR с HDFS — как мне это сделать?
9726 просмотров
schedule
12.02.2023
Что происходит, когда картограф умирает в потоковом задании EMR?
Что произойдет в эластичном задании потоковой передачи mapreduce, если маппер внезапно умрет? Данные, которые уже были обработаны, будут воспроизведены? Если да, то есть ли возможность отключить это?
Я спрашиваю, потому что я использую EMR для...
507 просмотров
schedule
23.11.2023
Автоматический куст или каскадирование для ETL в AWS-EMR
У меня есть большой набор данных, находящийся в AWS S3. Эти данные обычно представляют собой транзакционные данные (например, записи о вызовах). Я запускаю последовательность запросов Hive для непрерывного выполнения условий агрегирования и...
267 просмотров
schedule
06.06.2022
Использование данных, представленных в S3, внутри картографов EMR
Мне нужно получить доступ к некоторым данным на этапе карты. Это статический файл, из которого мне нужно прочитать некоторые данные.
Я загрузил файл данных на S3.
Как я могу получить доступ к этим данным во время работы в EMR? Если я просто...
422 просмотров
schedule
29.04.2023
LeaseExpiredException с пользовательской определяемой пользователем функцией в Hive
У меня есть Hive UDF, который должен извлекать устройство из строки UA. Он использует библиотеку ua-parser: https://github.com/tobie/ua-parser
UDF довольно прост:
public class DeviceTypeExtractTest extends UDF{
private Text result = new...
75 просмотров
schedule
27.03.2024
AWS EMR выполняет сценарий начальной загрузки на всех уже запущенных машинах в кластере.
У меня есть один кластер EMR, который работает круглосуточно и без выходных. Не могу выключить и запустить новую.
Я хотел бы выполнить что-то вроде действия начальной загрузки на уже работающем кластере, предпочтительно с использованием Python и...
1788 просмотров
schedule
08.07.2023
Как подавить сообщения INFO для spark-sql, работающего на EMR?
Я запускаю Spark в EMR, как описано в разделе Запуск Spark и Spark SQL в Amazon Elastic MapReduce :
В этом учебном пособии вы узнаете, как установить и использовать Spark, быстрый и универсальный механизм для крупномасштабной обработки данных,...
8694 просмотров
schedule
10.04.2023
boto не нравится параметр EMR BootstrapAction
Пытаюсь запустить кластер AWS EMR с помощью библиотеки boto, все работает.
Из-за этого мне нужно установить необходимые библиотеки Python, я попытался добавить шаг действия начальной загрузки, используя boto.emr.bootstrap_action
Но это дает...
555 просмотров
schedule
03.08.2023
Отключить отчет о приложении для задания Spark
Когда я отправляю задание Spark (в AWS-EMR), у меня на консоли появляется много «ИНФО-журнала»:
02.15.17 19:44:46 ИНФО пряжа.Клиент: Отчет о применении для application_1455192031517_0006 (состояние: ПРИНЯТО)
02.15.17 19:44:47 ИНФОРМАЦИЯ...
2261 просмотров
schedule
13.10.2022
Неправильный путь при загрузке данных из S3 во внешнюю таблицу Hive, расположенную в S3 в EMR
У меня есть кластер EMR, на котором я запускаю Hive. У меня есть внешняя таблица на S3, определенная как таковая:
+-----------------------------------------------------------------+
| CREATE EXTERNAL TABLE `blah`(...
1127 просмотров
schedule
01.10.2022
Использование AWS Kinesis в качестве источника данных для задания EMR MapReduce
Я настроил поток AWS Kinesis, который получает данные из нескольких источников. Я хотел бы обрабатывать эти данные несколькими инкрементными пакетами с помощью MapReduce в EMR.
Как указать источник ввода в моей работе? Существуют ли какие-либо...
421 просмотров
schedule
22.05.2023
TitanDB на Amazon EMR
Я пытаюсь запустить TitanDB (0.54) на Amazon EMR (2.4 + 0.94.18). Когда я пытаюсь подключиться к гремлину, он зависает.
``` ]$ bin/gremlin.sh
\,,,/
(o o)
-----oOOo-(_)-oOOo----- gremlin> g = TitanFactory.open("hbase:localhost")...
111 просмотров
schedule
09.08.2022
Транслируемая переменная Spark возвращает NullPointerException при запуске в кластере Amazon EMR.
Переменные, которыми я делюсь через широковещательную рассылку, являются нулевыми в кластере.
Мое приложение довольно сложное, но я написал этот небольшой пример, который работает безупречно, когда я запускаю его локально, но не работает в...
3778 просмотров
schedule
27.04.2023