Вопросы по теме 'elastic-map-reduce'

Запишите некоторые данные (строки) из моих картографов в отдельные каталоги в зависимости от некоторой логики в моем коде картографа.
Я использую mrjob для своих нужд EMR. Как мне записать некоторые данные (строки) из моих картографов в «отдельные каталоги» в зависимости от некоторой логики в моем коде картографа, которую я могу: tar gzip и загружать в отдельные корзины...
312 просмотров
schedule 30.03.2022

Можно ли запустить hadoop fs -getmerge в S3?
У меня есть задание Elastic Map Reduce, которое записывает некоторые файлы в S3, и я хочу объединить все файлы для создания уникального текстового файла. В настоящее время я вручную копирую папку со всеми файлами в нашу HDFS (hadoop fs...
2657 просмотров

Amazon Elastic MapReduce: выходной каталог
Я просматриваю пример запуска Elastic MapReduce на Amazon и получаю следующую ошибку: Ошибка при запуске задания. Выходной путь уже существует. Вот команда для запуска задания, которое я использую: C:\ruby\elastic-mapreduce-cli>ruby...
3593 просмотров

Как я могу поделиться библиотеками jar с amazon elastic mapreduce?
Чтобы ускорить загрузку jar на s3, я хочу скопировать все мои обычные jar во что-то вроде «$ HADOOP_HOME/lib» в обычном хаупе. Могу ли я создать собственный экземпляр EMR hadoop с предустановленными этими библиотеками. Или есть более простой способ?
160 просмотров
schedule 03.03.2023

Чтение файла параметров в Amazon Elastic MapReduce и S3
Я пытаюсь запустить свою программу hadoop в системе Amazon Elastic MapReduce. Моя программа берет входной файл из локальной файловой системы, который содержит параметры, необходимые для запуска программы. Однако, поскольку файл обычно читается из...
2082 просмотров

Существуют ли какие-либо распределенные библиотеки машинного обучения для использования Python с Hadoop?
Я настроил Amazon Elastic MapReduce для выполнения различных стандартных задач машинного обучения. В прошлом я широко использовал Python для локального машинного обучения и не знаю Java. Насколько я могу судить, нет хорошо разработанных библиотек...
2643 просмотров

Понимание алгоритма mapreduce для расчета перекрытия
Прошу помощи в понимании алгоритма. Сначала я вставил объяснение алгоритма, а затем свои сомнения. Алгоритм: (для вычисления перекрытия между парами записей) При заданном пользователем параметре K файл DR( *Format: record_id, data*)...
871 просмотров

Группа свиней по средней функции
У меня есть данные, которые выглядят так STN--- WBAN YEARMODA TEMP DEWP SLP STP VISIB WDSP MXSPD GUST MAX MIN PRCP SNDP FRSHTT 030050 99999 19291029 46.7 4 42.0 4 990.9 4 9999.9 0...
4047 просмотров

Пользовательский формат ввода Hadoop, который не использует файлы
Я только начинаю работать с Hadoop и пытаюсь понять, как использовать другие источники ввода, не являющиеся файлами, т.е. читать все строки из AWS SimpleDB или все записи из REST API в другой системе. Все онлайн только показывает, как обрабатывать...
423 просмотров

Низкая производительность запросов Hive в AWS Elastic MapReduce
У меня возникла странная проблема, и уверяю вас, я много гуглил. Я использую набор кластеров AWS Elastic MapReduce, и у меня есть таблица Hive с примерно 16 разделами. Они созданы из emr-s3distcp (поскольку в исходной корзине s3 находится около...
962 просмотров
schedule 08.03.2022

AWS Elastic mapreduce, похоже, неправильно преобразует потоковую передачу в jar
У меня есть маппер и редюсер, которые отлично работают, когда я запускаю их в конвейерной версии: cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py Я использовал эластичный мастер mapreducer, загрузил входы, выходы, начальную загрузку и...
2737 просмотров

Как сделать попытку задачи hadoop завершиться неудачей после слишком большого количества сбоев выборки данных?
У меня есть попытка уменьшить задачу hadoop, которая никогда не завершится и не завершится, если я не завершу ее вручную. Проблема возникает, когда узел отслеживания задач (из-за сетевых проблем, которые я все еще исследую) теряет связь с другими...
4231 просмотров

Невозможно прочитать файлы Hadoop Sequence через стандартный ввод с помощью потоковой карты Python Map-Reduce на AWS
Я пытаюсь запустить простую задачу уменьшения количества слов на карте Amazon Elastic Map Reduce, но на выходе получается тарабарщина. Входной файл является частью файлов общего сканирования , которые представляют собой файлы последовательностей...
827 просмотров

как запустить/установить oozie в кластере EMR
Я хочу организовать свою работу в EMR. поэтому я подумал, что Узи подойдет. Я сделал несколько POC в рабочем процессе oozie, но в локальном режиме он довольно прост и великолепен. Но я не понимаю, как использовать oozie на кластере EMR....
6136 просмотров

Как реализовать объединитель в Hadoop MapReduce?
Я так понимаю, что для включения объединителя в Hadoop MapReduce включена следующая строчка (что я уже сделал); conf.setCombinerClass(MyReducer.class); Чего я не понимаю, так это того, где я на самом деле реализую функциональность...
1883 просмотров
schedule 24.08.2022

Ошибка Hadoop при копировании входного файла bz2 из s3
У меня есть работа Hadoop только с картой, работающая на Amazon EMR, работающая на последней версии ami: 3.0.4. Время от времени я получаю такие исключения: Error: com.amazonaws.AmazonClientException: Unable to verify integrity of data download....
616 просмотров
schedule 09.06.2023

Как найти правильную часть между типами экземпляров Hadoop
Я пытаюсь выяснить, сколько экземпляров MASTER, CORE, TASK оптимально для моей работы. Я не мог найти никакого учебника, который объясняет, как мне это понять. Как узнать, нужно ли мне более 1 экземпляра ядра? Какие «симптомы» я увижу в...
1837 просмотров
schedule 03.09.2022

Как установить точное максимальное количество одновременно запущенных задач на узел в Hadoop 2.4.0 на Elastic MapReduce
Согласно http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-using-gotchas/ формула для определения количества одновременно выполняющихся задач на узел: min (yarn.nodemanager.resource.memory-mb /...
2301 просмотров

LeaseExpiredException с пользовательской определяемой пользователем функцией в Hive
У меня есть Hive UDF, который должен извлекать устройство из строки UA. Он использует библиотеку ua-parser: https://github.com/tobie/ua-parser UDF довольно прост: public class DeviceTypeExtractTest extends UDF{ private Text result = new...
75 просмотров
schedule 27.03.2024

Эластичные строки поиска по столбцу
У меня есть документы в ElasticSearch, подобные этому. Я хочу выполнить поиск и получить результат, подобный сводному серверу sql. Но я не знаю, как я могу это сделать. Name | Year | Gear C30 2012 A C30 2011 M C30 2014 M C30...
633 просмотров
schedule 10.11.2022