Вопросы по теме 'elastic-map-reduce'
Запишите некоторые данные (строки) из моих картографов в отдельные каталоги в зависимости от некоторой логики в моем коде картографа.
Я использую mrjob для своих нужд EMR.
Как мне записать некоторые данные (строки) из моих картографов в «отдельные каталоги» в зависимости от некоторой логики в моем коде картографа, которую я могу:
tar gzip и
загружать в отдельные корзины...
312 просмотров
schedule
30.03.2022
Можно ли запустить hadoop fs -getmerge в S3?
У меня есть задание Elastic Map Reduce, которое записывает некоторые файлы в S3, и я хочу объединить все файлы для создания уникального текстового файла.
В настоящее время я вручную копирую папку со всеми файлами в нашу HDFS (hadoop fs...
2657 просмотров
schedule
02.12.2022
Amazon Elastic MapReduce: выходной каталог
Я просматриваю пример запуска Elastic MapReduce на Amazon и получаю следующую ошибку:
Ошибка при запуске задания. Выходной путь уже существует.
Вот команда для запуска задания, которое я использую:
C:\ruby\elastic-mapreduce-cli>ruby...
3593 просмотров
schedule
10.05.2022
Как я могу поделиться библиотеками jar с amazon elastic mapreduce?
Чтобы ускорить загрузку jar на s3, я хочу скопировать все мои обычные jar во что-то вроде «$ HADOOP_HOME/lib» в обычном хаупе. Могу ли я создать собственный экземпляр EMR hadoop с предустановленными этими библиотеками. Или есть более простой способ?
160 просмотров
schedule
03.03.2023
Чтение файла параметров в Amazon Elastic MapReduce и S3
Я пытаюсь запустить свою программу hadoop в системе Amazon Elastic MapReduce. Моя программа берет входной файл из локальной файловой системы, который содержит параметры, необходимые для запуска программы. Однако, поскольку файл обычно читается из...
2082 просмотров
schedule
07.05.2023
Существуют ли какие-либо распределенные библиотеки машинного обучения для использования Python с Hadoop?
Я настроил Amazon Elastic MapReduce для выполнения различных стандартных задач машинного обучения. В прошлом я широко использовал Python для локального машинного обучения и не знаю Java.
Насколько я могу судить, нет хорошо разработанных библиотек...
2643 просмотров
schedule
02.01.2023
Понимание алгоритма mapreduce для расчета перекрытия
Прошу помощи в понимании алгоритма. Сначала я вставил объяснение алгоритма, а затем свои сомнения.
Алгоритм: (для вычисления перекрытия между парами записей)
При заданном пользователем параметре K файл DR( *Format: record_id, data*)...
871 просмотров
schedule
12.06.2023
Группа свиней по средней функции
У меня есть данные, которые выглядят так
STN--- WBAN YEARMODA TEMP DEWP SLP STP VISIB WDSP MXSPD GUST MAX MIN PRCP SNDP FRSHTT
030050 99999 19291029 46.7 4 42.0 4 990.9 4 9999.9 0...
4047 просмотров
schedule
27.02.2023
Пользовательский формат ввода Hadoop, который не использует файлы
Я только начинаю работать с Hadoop и пытаюсь понять, как использовать другие источники ввода, не являющиеся файлами, т.е. читать все строки из AWS SimpleDB или все записи из REST API в другой системе. Все онлайн только показывает, как обрабатывать...
423 просмотров
schedule
24.04.2023
Низкая производительность запросов Hive в AWS Elastic MapReduce
У меня возникла странная проблема, и уверяю вас, я много гуглил.
Я использую набор кластеров AWS Elastic MapReduce, и у меня есть таблица Hive с примерно 16 разделами. Они созданы из emr-s3distcp (поскольку в исходной корзине s3 находится около...
962 просмотров
schedule
08.03.2022
AWS Elastic mapreduce, похоже, неправильно преобразует потоковую передачу в jar
У меня есть маппер и редюсер, которые отлично работают, когда я запускаю их в конвейерной версии:
cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py
Я использовал эластичный мастер mapreducer, загрузил входы, выходы, начальную загрузку и...
2737 просмотров
schedule
21.12.2022
Как сделать попытку задачи hadoop завершиться неудачей после слишком большого количества сбоев выборки данных?
У меня есть попытка уменьшить задачу hadoop, которая никогда не завершится и не завершится, если я не завершу ее вручную.
Проблема возникает, когда узел отслеживания задач (из-за сетевых проблем, которые я все еще исследую) теряет связь с другими...
4231 просмотров
schedule
25.07.2022
Невозможно прочитать файлы Hadoop Sequence через стандартный ввод с помощью потоковой карты Python Map-Reduce на AWS
Я пытаюсь запустить простую задачу уменьшения количества слов на карте Amazon Elastic Map Reduce, но на выходе получается тарабарщина. Входной файл является частью файлов общего сканирования , которые представляют собой файлы последовательностей...
827 просмотров
schedule
11.10.2022
как запустить/установить oozie в кластере EMR
Я хочу организовать свою работу в EMR. поэтому я подумал, что Узи подойдет. Я сделал несколько POC в рабочем процессе oozie, но в локальном режиме он довольно прост и великолепен.
Но я не понимаю, как использовать oozie на кластере EMR....
6136 просмотров
schedule
29.10.2022
Как реализовать объединитель в Hadoop MapReduce?
Я так понимаю, что для включения объединителя в Hadoop MapReduce включена следующая строчка (что я уже сделал);
conf.setCombinerClass(MyReducer.class);
Чего я не понимаю, так это того, где я на самом деле реализую функциональность...
1883 просмотров
schedule
24.08.2022
Ошибка Hadoop при копировании входного файла bz2 из s3
У меня есть работа Hadoop только с картой, работающая на Amazon EMR, работающая на последней версии ami: 3.0.4. Время от времени я получаю такие исключения:
Error: com.amazonaws.AmazonClientException: Unable to verify integrity of data download....
616 просмотров
schedule
09.06.2023
Как найти правильную часть между типами экземпляров Hadoop
Я пытаюсь выяснить, сколько экземпляров MASTER, CORE, TASK оптимально для моей работы. Я не мог найти никакого учебника, который объясняет, как мне это понять.
Как узнать, нужно ли мне более 1 экземпляра ядра? Какие «симптомы» я увижу в...
1837 просмотров
schedule
03.09.2022
Как установить точное максимальное количество одновременно запущенных задач на узел в Hadoop 2.4.0 на Elastic MapReduce
Согласно http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-using-gotchas/ формула для определения количества одновременно выполняющихся задач на узел:
min (yarn.nodemanager.resource.memory-mb /...
2301 просмотров
schedule
26.08.2022
LeaseExpiredException с пользовательской определяемой пользователем функцией в Hive
У меня есть Hive UDF, который должен извлекать устройство из строки UA. Он использует библиотеку ua-parser: https://github.com/tobie/ua-parser
UDF довольно прост:
public class DeviceTypeExtractTest extends UDF{
private Text result = new...
75 просмотров
schedule
27.03.2024
Эластичные строки поиска по столбцу
У меня есть документы в ElasticSearch, подобные этому. Я хочу выполнить поиск и получить результат, подобный сводному серверу sql. Но я не знаю, как я могу это сделать.
Name | Year | Gear
C30 2012 A
C30 2011 M
C30 2014 M
C30...
633 просмотров
schedule
10.11.2022