Вопросы по теме 'hadoop-streaming'
Управление зависимостями с помощью Hadoop Streaming?
У меня небольшой вопрос о потоковой передаче Hadoop. Если я использую потоковую передачу Python и у меня есть пакеты Python, которые требуются моим преобразователям/редукторам, но не установлены по умолчанию, нужно ли мне устанавливать их также на...
1006 просмотров
schedule
30.08.2022
Кластер Hadoop — нужно ли реплицировать мой код на все машины перед запуском задания?
Вот что меня смущает, когда я использую пример подсчета слов, я держу код на мастере и позволяю ему делать что-то с ведомыми, и он работает нормально.
Но когда я запускаю свой код, он начинает давать сбои на подчиненных устройствах, выдавая...
1905 просмотров
schedule
10.04.2022
Соединение на стороне карты с помощью Hadoop Streaming
У меня есть файл, в котором каждая строка является записью. Я хочу, чтобы все записи с одинаковым значением в определенном поле (вызовите, если поле A) перешли к одному и тому же сопоставителю. Я слышал, что это называется соединением на стороне...
293 просмотров
schedule
27.02.2022
В чем разница между задачами карт, локальными для стойки, и задачами карт, локальными для данных?
Когда я запускаю «hadoop job -status xxx», выведите следующий список.
Rack-local map tasks=124
Data-local map tasks=6
В чем разница между задачами карт, локальными для стойки, и задачами карт, локальными для данных?
4361 просмотров
schedule
27.04.2022
Получить данные, вызвавшие сбой задания MapReduce
Есть много ситуаций, когда я пишу программу обработки данных, а новые ошибки обнаруживаются только на больших наборах данных. Например, рассмотрим скрипт, который дает сбой в 1 из 100 миллионов записей (из-за неожиданного ввода или чего-то еще);...
980 просмотров
schedule
04.06.2023
разграничение карата А в питоне
У меня есть данные в форме:
37101000ssd48800^A1420asd938987^A2011-09-10^A18:47:50.000^A99.00^A1^A0^A
37101000sd48801^A44557asd03082^A2011-09-06^A13:24:58.000^A42.01^A1^A0^A
Итак, сначала я воспринял это буквально и попробовал:
line =...
1648 просмотров
schedule
24.04.2024
StreamInputFormat для задания mapreduce
У меня есть приложение, которое подключается к удаленной системе и передает данные с нее по протоколу sftp. Я хочу использовать задание mapreduce, чтобы сделать то же самое. Мне нужен формат ввода, который считывается из входного потока. Я...
324 просмотров
schedule
01.03.2024
Получение имени файла в картографе Hadoop с использованием Hadoop Pipes
Как я могу получить имя входного файла , который выполняется в hadoop mapper в Hadoop Pipes?
Я могу легко получить имя файла в редукторе карт на основе Java, например
FileSplit fileSplit = (FileSplit)context.getInputSplit(); Строка...
2335 просмотров
schedule
24.10.2022
Потоковая передача Hadoop: один файл или несколько файлов на карту. Не разделять
У меня есть много zip-файлов, которые нужно обработать библиотекой C++. Поэтому я использую C++ для написания своей потоковой программы для Hadoop. Программа прочитает zip-файл, разархивирует его и обработает извлеченные данные. Моя проблема в том,...
6042 просмотров
schedule
30.04.2023
Существуют ли какие-либо распределенные библиотеки машинного обучения для использования Python с Hadoop?
Я настроил Amazon Elastic MapReduce для выполнения различных стандартных задач машинного обучения. В прошлом я широко использовал Python для локального машинного обучения и не знаю Java.
Насколько я могу судить, нет хорошо разработанных библиотек...
2643 просмотров
schedule
02.01.2023
Альтернативные способы запуска потоковой передачи в Hadoop
Я могу успешно запустить потоковое задание Hadoop с терминала, но я ищу способы начать паровые задания через API, eclipse или другие средства.
Самое близкое, что я нашел, было это сообщение -hadoop-streaming-job , но на него нет ответов!
Любые...
408 просмотров
schedule
18.04.2022
Потоковое задание Hadoop с двоичным вводом?
Я хочу преобразовать двоичный файл в одном формате в SequenceFile.
У меня есть скрипт Python, который принимает этот формат на стандартный ввод и может выводить все, что я хочу.
Формат ввода не основан на строках. Отдельные записи сами по себе...
526 просмотров
schedule
01.01.2023
Параметр hadoop streaming -file для передачи нескольких файлов
Мне нужно передать несколько файлов в потоковое задание Hadoop. Согласно документу, опция -file также принимает каталог в качестве входных данных. однако, похоже, это не работает. Редуктор выдает ошибку, что файл не найден. Другие варианты -...
1158 просмотров
schedule
19.08.2022
Пример потоковой передачи Hadoop на CentOS с python — разрешение запрещено на /mapred/local/taskTracker
Мне удалось настроить пример потоковой передачи с помощью python mapper & reducer. Папка mapred находится в /mapred/local/taskTracker, и пользователи root, и пользователи mapred имеют право собственности на эту папку и подпапки.
однако, когда я...
429 просмотров
schedule
25.04.2024
Как декодировать двоичный файл, который должен быть декодирован с использованием внешнего двоичного файла за один раз?
У меня есть большое количество входных файлов в проприетарном двоичном формате. Мне нужно превратить их в строки для дальнейшей обработки. Каждый файл должен быть декодирован за один раз внешним двоичным файлом (т. е. файлы не должны объединяться...
238 просмотров
schedule
21.08.2022
Запустите новое потоковое задание Hadoop из текущего запущенного задания.
Можно ли создать и запустить новое задание Hadoop потоковой из любой
Обычное задание Java Hadoop, которое выполняется в данный момент, или
Hadoop Mapper (на Python), который выполняется как часть задания потоковой передачи Hadoop.
и как?
73 просмотров
schedule
02.04.2022
разделение файла hadoop с использованием KeyFieldBasedPartitioner
У меня есть большой файл, который отформатирован следующим образом
sample name \t index \t score
И я пытаюсь разделить этот файл на основе имени примера с помощью Hadoop Streaming. Я заранее знаю, сколько есть сэмплов, поэтому могу указать,...
1129 просмотров
schedule
17.04.2022
AWS Elastic mapreduce, похоже, неправильно преобразует потоковую передачу в jar
У меня есть маппер и редюсер, которые отлично работают, когда я запускаю их в конвейерной версии:
cat data.csv | ./mapper.py | sort -k1,1 | ./reducer.py
Я использовал эластичный мастер mapreducer, загрузил входы, выходы, начальную загрузку и...
2737 просмотров
schedule
21.12.2022
Как ввести массив в задание Map Reduce?
У меня есть служба, которая постоянно извлекает некоторые данные. Я сбрасываю эти данные в массив, эти данные необходимо обрабатывать дальше. Можно ли создать динамический массив, который постоянно обновляется сервисом, и параллельно я могу выполнять...
270 просмотров
schedule
02.12.2022
Установка Hadoop R
Привет! У меня есть кластер Hadoop, и я подумываю написать свой собственный Mapper и Reducer в R, а затем использовать Hadoop Streaming для анализа временных рядов.
Однако мне интересно, каков «общий» способ установки любого программного...
107 просмотров
schedule
25.10.2022