Статьи по тематике elastic-map-reduce [hadoop, mrjob, elastic-map-reduce, amazon-s3, amazon-emr]

Вопросы по теме 'elastic-map-reduce'

Запишите некоторые данные (строки) из моих картографов в отдельные каталоги в зависимости от некоторой логики в моем коде картографа.

Я использую mrjob для своих нужд EMR. Как мне записать некоторые данные (строки) из моих картографов в «отдельные каталоги» в зависимости от некоторой логики в моем коде картографа, которую я могу: tar gzip и загружать в отдельные корзины...

312 просмотров

hadoop mrjob elastic-map-reduce

30.03.2022

Можно ли запустить hadoop fs -getmerge в S3?

У меня есть задание Elastic Map Reduce, которое записывает некоторые файлы в S3, и я хочу объединить все файлы для создания уникального текстового файла. В настоящее время я вручную копирую папку со всеми файлами в нашу HDFS (hadoop fs...

2657 просмотров

amazon-s3 amazon-emr hadoop elastic-map-reduce

02.12.2022

Amazon Elastic MapReduce: выходной каталог

Я просматриваю пример запуска Elastic MapReduce на Amazon и получаю следующую ошибку: Ошибка при запуске задания. Выходной путь уже существует. Вот команда для запуска задания, которое я использую: C:\ruby\elastic-mapreduce-cli>ruby...

3593 просмотров

amazon-web-services amazon-ec2 hadoop elastic-map-reduce

10.05.2022

Как я могу поделиться библиотеками jar с amazon elastic mapreduce?

Чтобы ускорить загрузку jar на s3, я хочу скопировать все мои обычные jar во что-то вроде «$ HADOOP_HOME/lib» в обычном хаупе. Могу ли я создать собственный экземпляр EMR hadoop с предустановленными этими библиотеками. Или есть более простой способ?

160 просмотров

amazon-ec2 hadoop elastic-map-reduce

03.03.2023

Чтение файла параметров в Amazon Elastic MapReduce и S3

Я пытаюсь запустить свою программу hadoop в системе Amazon Elastic MapReduce. Моя программа берет входной файл из локальной файловой системы, который содержит параметры, необходимые для запуска программы. Однако, поскольку файл обычно читается из...

2082 просмотров

amazon-web-services amazon-s3 hadoop mapreduce elastic-map-reduce

07.05.2023

Существуют ли какие-либо распределенные библиотеки машинного обучения для использования Python с Hadoop?

Я настроил Amazon Elastic MapReduce для выполнения различных стандартных задач машинного обучения. В прошлом я широко использовал Python для локального машинного обучения и не знаю Java. Насколько я могу судить, нет хорошо разработанных библиотек...

2643 просмотров

python hadoop mapreduce hadoop-streaming elastic-map-reduce

02.01.2023

Понимание алгоритма mapreduce для расчета перекрытия

Прошу помощи в понимании алгоритма. Сначала я вставил объяснение алгоритма, а затем свои сомнения. Алгоритм: (для вычисления перекрытия между парами записей) При заданном пользователем параметре K файл DR( *Format: record_id, data*)...

871 просмотров

java hadoop mapreduce hadoop-partitioning elastic-map-reduce

12.06.2023

Группа свиней по средней функции

У меня есть данные, которые выглядят так STN--- WBAN YEARMODA TEMP DEWP SLP STP VISIB WDSP MXSPD GUST MAX MIN PRCP SNDP FRSHTT 030050 99999 19291029 46.7 4 42.0 4 990.9 4 9999.9 0...

4047 просмотров

amazon-web-services hadoop apache-pig elastic-map-reduce

27.02.2023

Пользовательский формат ввода Hadoop, который не использует файлы

Я только начинаю работать с Hadoop и пытаюсь понять, как использовать другие источники ввода, не являющиеся файлами, т.е. читать все строки из AWS SimpleDB или все записи из REST API в другой системе. Все онлайн только показывает, как обрабатывать...

423 просмотров

java hadoop amazon-simpledb elastic-map-reduce

24.04.2023

Низкая производительность запросов Hive в AWS Elastic MapReduce

У меня возникла странная проблема, и уверяю вас, я много гуглил. Я использую набор кластеров AWS Elastic MapReduce, и у меня есть таблица Hive с примерно 16 разделами. Они созданы из emr-s3distcp (поскольку в исходной корзине s3 находится около...

962 просмотров

hadoop hdfs hive elastic-map-reduce emr

08.03.2022

AWS Elastic mapreduce, похоже, неправильно преобразует потоковую передачу в jar

У меня есть маппер и редюсер, которые отлично работают, когда я запускаю их в конвейерной версии: cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py Я использовал эластичный мастер mapreducer, загрузил входы, выходы, начальную загрузку и...

2737 просмотров

python amazon-web-services hadoop hadoop-streaming elastic-map-reduce

21.12.2022

Как сделать попытку задачи hadoop завершиться неудачей после слишком большого количества сбоев выборки данных?

У меня есть попытка уменьшить задачу hadoop, которая никогда не завершится и не завершится, если я не завершу ее вручную. Проблема возникает, когда узел отслеживания задач (из-за сетевых проблем, которые я все еще исследую) теряет связь с другими...

4231 просмотров

amazon-emr hadoop mapreduce elastic-map-reduce

25.07.2022

Невозможно прочитать файлы Hadoop Sequence через стандартный ввод с помощью потоковой карты Python Map-Reduce на AWS

Я пытаюсь запустить простую задачу уменьшения количества слов на карте Amazon Elastic Map Reduce, но на выходе получается тарабарщина. Входной файл является частью файлов общего сканирования , которые представляют собой файлы последовательностей...

827 просмотров

python amazon-web-services hadoop-streaming elastic-map-reduce

11.10.2022

как запустить/установить oozie в кластере EMR

Я хочу организовать свою работу в EMR. поэтому я подумал, что Узи подойдет. Я сделал несколько POC в рабочем процессе oozie, но в локальном режиме он довольно прост и великолепен. Но я не понимаю, как использовать oozie на кластере EMR....

6136 просмотров

amazon-web-services oozie elastic-map-reduce emr

29.10.2022

Как реализовать объединитель в Hadoop MapReduce?

Я так понимаю, что для включения объединителя в Hadoop MapReduce включена следующая строчка (что я уже сделал); conf.setCombinerClass(MyReducer.class); Чего я не понимаю, так это того, где я на самом деле реализую функциональность...

1883 просмотров

java hadoop mapreduce elastic-map-reduce

24.08.2022

Ошибка Hadoop при копировании входного файла bz2 из s3

У меня есть работа Hadoop только с картой, работающая на Amazon EMR, работающая на последней версии ami: 3.0.4. Время от времени я получаю такие исключения: Error: com.amazonaws.AmazonClientException: Unable to verify integrity of data download....

616 просмотров

hadoop amazon bzip2 elastic-map-reduce

09.06.2023

Как найти правильную часть между типами экземпляров Hadoop

Я пытаюсь выяснить, сколько экземпляров MASTER, CORE, TASK оптимально для моей работы. Я не мог найти никакого учебника, который объясняет, как мне это понять. Как узнать, нужно ли мне более 1 экземпляра ядра? Какие «симптомы» я увижу в...

1837 просмотров

hadoop elastic-map-reduce instancetype

03.09.2022

Как установить точное максимальное количество одновременно запущенных задач на узел в Hadoop 2.4.0 на Elastic MapReduce

Согласно http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-using-gotchas/ формула для определения количества одновременно выполняющихся задач на узел: min (yarn.nodemanager.resource.memory-mb /...

2301 просмотров

amazon-web-services yarn hadoop2 hadoop-streaming elastic-map-reduce

26.08.2022

LeaseExpiredException с пользовательской определяемой пользователем функцией в Hive

У меня есть Hive UDF, который должен извлекать устройство из строки UA. Он использует библиотеку ua-parser: https://github.com/tobie/ua-parser UDF довольно прост: public class DeviceTypeExtractTest extends UDF{ private Text result = new...

75 просмотров

hadoop hive elastic-map-reduce emr

27.03.2024

Эластичные строки поиска по столбцу

У меня есть документы в ElasticSearch, подобные этому. Я хочу выполнить поиск и получить результат, подобный сводному серверу sql. Но я не знаю, как я могу это сделать. Name | Year | Gear C30 2012 A C30 2011 M C30 2014 M C30...

633 просмотров

elastic-map-reduce

10.11.2022

Вопросы по теме 'elastic-map-reduce'

Похожие вопросы