Статьи по тематике hadoop-streaming

Вопросы по теме 'hadoop-streaming'

Управление зависимостями с помощью Hadoop Streaming?

У меня небольшой вопрос о потоковой передаче Hadoop. Если я использую потоковую передачу Python и у меня есть пакеты Python, которые требуются моим преобразователям/редукторам, но не установлены по умолчанию, нужно ли мне устанавливать их также на...

1006 просмотров

30.08.2022

Кластер Hadoop — нужно ли реплицировать мой код на все машины перед запуском задания?

Вот что меня смущает, когда я использую пример подсчета слов, я держу код на мастере и позволяю ему делать что-то с ведомыми, и он работает нормально. Но когда я запускаю свой код, он начинает давать сбои на подчиненных устройствах, выдавая...

1905 просмотров

python hadoop mapreduce hadoop-streaming

10.04.2022

Соединение на стороне карты с помощью Hadoop Streaming

У меня есть файл, в котором каждая строка является записью. Я хочу, чтобы все записи с одинаковым значением в определенном поле (вызовите, если поле A) перешли к одному и тому же сопоставителю. Я слышал, что это называется соединением на стороне...

293 просмотров

hadoop join hadoop-streaming

27.02.2022

В чем разница между задачами карт, локальными для стойки, и задачами карт, локальными для данных?

Когда я запускаю «hadoop job -status xxx», выведите следующий список. Rack-local map tasks=124 Data-local map tasks=6 В чем разница между задачами карт, локальными для стойки, и задачами карт, локальными для данных?

4361 просмотров

hadoop mapreduce hadoop-streaming

27.04.2022

Получить данные, вызвавшие сбой задания MapReduce

Есть много ситуаций, когда я пишу программу обработки данных, а новые ошибки обнаруживаются только на больших наборах данных. Например, рассмотрим скрипт, который дает сбой в 1 из 100 миллионов записей (из-за неожиданного ввода или чего-то еще);...

980 просмотров

hadoop mapreduce hadoop-streaming

04.06.2023

разграничение карата А в питоне

У меня есть данные в форме: 37101000ssd48800^A1420asd938987^A2011-09-10^A18:47:50.000^A99.00^A1^A0^A 37101000sd48801^A44557asd03082^A2011-09-06^A13:24:58.000^A42.01^A1^A0^A Итак, сначала я воспринял это буквально и попробовал: line =...

1648 просмотров

python hadoop hadoop-streaming

24.04.2024

StreamInputFormat для задания mapreduce

У меня есть приложение, которое подключается к удаленной системе и передает данные с нее по протоколу sftp. Я хочу использовать задание mapreduce, чтобы сделать то же самое. Мне нужен формат ввода, который считывается из входного потока. Я...

324 просмотров

hadoop mapreduce hadoop-streaming

01.03.2024

Получение имени файла в картографе Hadoop с использованием Hadoop Pipes

Как я могу получить имя входного файла , который выполняется в hadoop mapper в Hadoop Pipes? Я могу легко получить имя файла в редукторе карт на основе Java, например FileSplit fileSplit = (FileSplit)context.getInputSplit(); Строка...

2335 просмотров

hadoop hadoop-streaming

24.10.2022

Потоковая передача Hadoop: один файл или несколько файлов на карту. Не разделять

У меня есть много zip-файлов, которые нужно обработать библиотекой C++. Поэтому я использую C++ для написания своей потоковой программы для Hadoop. Программа прочитает zip-файл, разархивирует его и обработает извлеченные данные. Моя проблема в том,...

6042 просмотров

hadoop hadoop-streaming mapper

30.04.2023

Существуют ли какие-либо распределенные библиотеки машинного обучения для использования Python с Hadoop?

Я настроил Amazon Elastic MapReduce для выполнения различных стандартных задач машинного обучения. В прошлом я широко использовал Python для локального машинного обучения и не знаю Java. Насколько я могу судить, нет хорошо разработанных библиотек...

2643 просмотров

python hadoop mapreduce hadoop-streaming elastic-map-reduce

02.01.2023

Альтернативные способы запуска потоковой передачи в Hadoop

Я могу успешно запустить потоковое задание Hadoop с терминала, но я ищу способы начать паровые задания через API, eclipse или другие средства. Самое близкое, что я нашел, было это сообщение -hadoop-streaming-job , но на него нет ответов! Любые...

408 просмотров

hadoop hadoop-streaming

18.04.2022

Потоковое задание Hadoop с двоичным вводом?

Я хочу преобразовать двоичный файл в одном формате в SequenceFile. У меня есть скрипт Python, который принимает этот формат на стандартный ввод и может выводить все, что я хочу. Формат ввода не основан на строках. Отдельные записи сами по себе...

526 просмотров

python hadoop hadoop-streaming

01.01.2023

Параметр hadoop streaming -file для передачи нескольких файлов

Мне нужно передать несколько файлов в потоковое задание Hadoop. Согласно документу, опция -file также принимает каталог в качестве входных данных. однако, похоже, это не работает. Редуктор выдает ошибку, что файл не найден. Другие варианты -...

1158 просмотров

hadoop hadoop-streaming

19.08.2022

Пример потоковой передачи Hadoop на CentOS с python — разрешение запрещено на /mapred/local/taskTracker

Мне удалось настроить пример потоковой передачи с помощью python mapper & reducer. Папка mapred находится в /mapred/local/taskTracker, и пользователи root, и пользователи mapred имеют право собственности на эту папку и подпапки. однако, когда я...

429 просмотров

hadoop hadoop-streaming

25.04.2024

Как декодировать двоичный файл, который должен быть декодирован с использованием внешнего двоичного файла за один раз?

У меня есть большое количество входных файлов в проприетарном двоичном формате. Мне нужно превратить их в строки для дальнейшей обработки. Каждый файл должен быть декодирован за один раз внешним двоичным файлом (т. е. файлы не должны объединяться...

238 просмотров

hadoop hadoop-streaming apache-pig

21.08.2022

Запустите новое потоковое задание Hadoop из текущего запущенного задания.

Можно ли создать и запустить новое задание Hadoop потоковой из любой Обычное задание Java Hadoop, которое выполняется в данный момент, или Hadoop Mapper (на Python), который выполняется как часть задания потоковой передачи Hadoop. и как?

73 просмотров

hadoop mapreduce hadoop-streaming

02.04.2022

разделение файла hadoop с использованием KeyFieldBasedPartitioner

У меня есть большой файл, который отформатирован следующим образом sample name \t index \t score И я пытаюсь разделить этот файл на основе имени примера с помощью Hadoop Streaming. Я заранее знаю, сколько есть сэмплов, поэтому могу указать,...

1129 просмотров

hadoop mapreduce hadoop-partitioning hadoop-streaming

17.04.2022

AWS Elastic mapreduce, похоже, неправильно преобразует потоковую передачу в jar

У меня есть маппер и редюсер, которые отлично работают, когда я запускаю их в конвейерной версии: cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py Я использовал эластичный мастер mapreducer, загрузил входы, выходы, начальную загрузку и...

2737 просмотров

python amazon-web-services hadoop hadoop-streaming elastic-map-reduce

21.12.2022

Как ввести массив в задание Map Reduce?

У меня есть служба, которая постоянно извлекает некоторые данные. Я сбрасываю эти данные в массив, эти данные необходимо обрабатывать дальше. Можно ли создать динамический массив, который постоянно обновляется сервисом, и параллельно я могу выполнять...

270 просмотров

hadoop mapreduce hadoop-streaming

02.12.2022

Установка Hadoop R

Привет! У меня есть кластер Hadoop, и я подумываю написать свой собственный Mapper и Reducer в R, а затем использовать Hadoop Streaming для анализа временных рядов. Однако мне интересно, каков «общий» способ установки любого программного...

107 просмотров

hadoop hadoop-streaming

25.10.2022

Вопросы по теме 'hadoop-streaming'

Похожие вопросы