Вопросы по теме 'hadoop-streaming'

Управление зависимостями с помощью Hadoop Streaming?
У меня небольшой вопрос о потоковой передаче Hadoop. Если я использую потоковую передачу Python и у меня есть пакеты Python, которые требуются моим преобразователям/редукторам, но не установлены по умолчанию, нужно ли мне устанавливать их также на...
1006 просмотров
schedule 30.08.2022

Кластер Hadoop — нужно ли реплицировать мой код на все машины перед запуском задания?
Вот что меня смущает, когда я использую пример подсчета слов, я держу код на мастере и позволяю ему делать что-то с ведомыми, и он работает нормально. Но когда я запускаю свой код, он начинает давать сбои на подчиненных устройствах, выдавая...
1905 просмотров
schedule 10.04.2022

Соединение на стороне карты с помощью Hadoop Streaming
У меня есть файл, в котором каждая строка является записью. Я хочу, чтобы все записи с одинаковым значением в определенном поле (вызовите, если поле A) перешли к одному и тому же сопоставителю. Я слышал, что это называется соединением на стороне...
293 просмотров
schedule 27.02.2022

В чем разница между задачами карт, локальными для стойки, и задачами карт, локальными для данных?
Когда я запускаю «hadoop job -status xxx», выведите следующий список. Rack-local map tasks=124 Data-local map tasks=6 В чем разница между задачами карт, локальными для стойки, и задачами карт, локальными для данных?
4361 просмотров
schedule 27.04.2022

Получить данные, вызвавшие сбой задания MapReduce
Есть много ситуаций, когда я пишу программу обработки данных, а новые ошибки обнаруживаются только на больших наборах данных. Например, рассмотрим скрипт, который дает сбой в 1 из 100 миллионов записей (из-за неожиданного ввода или чего-то еще);...
980 просмотров
schedule 04.06.2023

разграничение карата А в питоне
У меня есть данные в форме: 37101000ssd48800^A1420asd938987^A2011-09-10^A18:47:50.000^A99.00^A1^A0^A 37101000sd48801^A44557asd03082^A2011-09-06^A13:24:58.000^A42.01^A1^A0^A Итак, сначала я воспринял это буквально и попробовал: line =...
1648 просмотров
schedule 24.04.2024

StreamInputFormat для задания mapreduce
У меня есть приложение, которое подключается к удаленной системе и передает данные с нее по протоколу sftp. Я хочу использовать задание mapreduce, чтобы сделать то же самое. Мне нужен формат ввода, который считывается из входного потока. Я...
324 просмотров
schedule 01.03.2024

Получение имени файла в картографе Hadoop с использованием Hadoop Pipes
Как я могу получить имя входного файла , который выполняется в hadoop mapper в Hadoop Pipes? Я могу легко получить имя файла в редукторе карт на основе Java, например FileSplit fileSplit = (FileSplit)context.getInputSplit(); Строка...
2335 просмотров
schedule 24.10.2022

Потоковая передача Hadoop: один файл или несколько файлов на карту. Не разделять
У меня есть много zip-файлов, которые нужно обработать библиотекой C++. Поэтому я использую C++ для написания своей потоковой программы для Hadoop. Программа прочитает zip-файл, разархивирует его и обработает извлеченные данные. Моя проблема в том,...
6042 просмотров
schedule 30.04.2023

Существуют ли какие-либо распределенные библиотеки машинного обучения для использования Python с Hadoop?
Я настроил Amazon Elastic MapReduce для выполнения различных стандартных задач машинного обучения. В прошлом я широко использовал Python для локального машинного обучения и не знаю Java. Насколько я могу судить, нет хорошо разработанных библиотек...
2643 просмотров

Альтернативные способы запуска потоковой передачи в Hadoop
Я могу успешно запустить потоковое задание Hadoop с терминала, но я ищу способы начать паровые задания через API, eclipse или другие средства. Самое близкое, что я нашел, было это сообщение -hadoop-streaming-job , но на него нет ответов! Любые...
408 просмотров
schedule 18.04.2022

Потоковое задание Hadoop с двоичным вводом?
Я хочу преобразовать двоичный файл в одном формате в SequenceFile. У меня есть скрипт Python, который принимает этот формат на стандартный ввод и может выводить все, что я хочу. Формат ввода не основан на строках. Отдельные записи сами по себе...
526 просмотров
schedule 01.01.2023

Параметр hadoop streaming -file для передачи нескольких файлов
Мне нужно передать несколько файлов в потоковое задание Hadoop. Согласно документу, опция -file также принимает каталог в качестве входных данных. однако, похоже, это не работает. Редуктор выдает ошибку, что файл не найден. Другие варианты -...
1158 просмотров
schedule 19.08.2022

Пример потоковой передачи Hadoop на CentOS с python — разрешение запрещено на /mapred/local/taskTracker
Мне удалось настроить пример потоковой передачи с помощью python mapper & reducer. Папка mapred находится в /mapred/local/taskTracker, и пользователи root, и пользователи mapred имеют право собственности на эту папку и подпапки. однако, когда я...
429 просмотров
schedule 25.04.2024

Как декодировать двоичный файл, который должен быть декодирован с использованием внешнего двоичного файла за один раз?
У меня есть большое количество входных файлов в проприетарном двоичном формате. Мне нужно превратить их в строки для дальнейшей обработки. Каждый файл должен быть декодирован за один раз внешним двоичным файлом (т. е. файлы не должны объединяться...
238 просмотров
schedule 21.08.2022

Запустите новое потоковое задание Hadoop из текущего запущенного задания.
Можно ли создать и запустить новое задание Hadoop потоковой из любой Обычное задание Java Hadoop, которое выполняется в данный момент, или Hadoop Mapper (на Python), который выполняется как часть задания потоковой передачи Hadoop. и как?
73 просмотров
schedule 02.04.2022

разделение файла hadoop с использованием KeyFieldBasedPartitioner
У меня есть большой файл, который отформатирован следующим образом sample name \t index \t score И я пытаюсь разделить этот файл на основе имени примера с помощью Hadoop Streaming. Я заранее знаю, сколько есть сэмплов, поэтому могу указать,...
1129 просмотров

AWS Elastic mapreduce, похоже, неправильно преобразует потоковую передачу в jar
У меня есть маппер и редюсер, которые отлично работают, когда я запускаю их в конвейерной версии: cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py Я использовал эластичный мастер mapreducer, загрузил входы, выходы, начальную загрузку и...
2737 просмотров

Как ввести массив в задание Map Reduce?
У меня есть служба, которая постоянно извлекает некоторые данные. Я сбрасываю эти данные в массив, эти данные необходимо обрабатывать дальше. Можно ли создать динамический массив, который постоянно обновляется сервисом, и параллельно я могу выполнять...
270 просмотров
schedule 02.12.2022

Установка Hadoop R
Привет! У меня есть кластер Hadoop, и я подумываю написать свой собственный Mapper и Reducer в R, а затем использовать Hadoop Streaming для анализа временных рядов. Однако мне интересно, каков «общий» способ установки любого программного...
107 просмотров
schedule 25.10.2022