Вопросы по теме 'mrjob'

Запишите некоторые данные (строки) из моих картографов в отдельные каталоги в зависимости от некоторой логики в моем коде картографа.
Я использую mrjob для своих нужд EMR. Как мне записать некоторые данные (строки) из моих картографов в «отдельные каталоги» в зависимости от некоторой логики в моем коде картографа, которую я могу: tar gzip и загружать в отдельные корзины...
312 просмотров
schedule 30.03.2022

Почему я получил WindowsError [Error5] Отказано в доступе при запуске файла python с помощью mrjob
Я пытаюсь использовать mrjob в файле python и запустить его в командной строке, но я продолжаю получать журнал ошибок, говорящий: C:\Users\Ni\Desktop>python si601lab6_sol.py pg1268.txt no configs found; falling back on auto-configuration no...
3786 просмотров

socket.gaierror при попытке запустить emr с помощью python mrjob
В настоящее время я пытаюсь изучить mrjob и как реализовать его в AWS EMR, поэтому, пожалуйста, простите меня, если я задаю уже заданный вопрос [искал во многих местах, но не нашел ответа], и извините, если это глупый вопрос. Это мой скрипт на...
129 просмотров
schedule 23.05.2024

Читать несколько файлов HDFS или файлов S3 с помощью mrjob?
У меня большой объем данных хранится в системе HDFS (или, как вариант, в Amazon S3). Я хочу обработать его с помощью mrjob. К сожалению, когда я запускаю mrjob и указываю имя файла HDFS или имя содержащего каталога, я получаю сообщение об...
568 просмотров
schedule 23.08.2022

Ошибка при запуске MRJOB на AWS
Я поместил файл mrjob.conf в каталог /home и попытался запустить задание из команды, и я получаю эту ошибку: Файл "/Users/bimalthapa/anaconda/lib/python2.7/site-packages/mrjob-0.4.6-py2.7.egg/mrjob/conf.py", строка 283, в conf_object_at_path с...
124 просмотров
schedule 21.07.2022

Подключение HIVE в MRJob
Сценарий: мне нужно обработать файл (ввод), и для каждой записи мне нужно проверить, соответствуют ли определенные поля во входном файле полям, хранящимся в кластере Hadoop. Мы планируем использовать MRJob для обработки входного файла и...
183 просмотров
schedule 02.03.2024

MRJob сохраняет вывод в файл
Используя библиотеку MRJob, вывод редьюсера выводится в консоль, а стандартный вывод является выводом по умолчанию. Как я могу указать файл для вывода, чтобы результаты не печатались, а записывались в этот файл. EDIT: есть еще один вопрос...
1034 просмотров
schedule 22.01.2023

Неверный входной путь при настройке простого задания MRJob на экземпляре EC2 с одним узлом
Я пытаюсь запустить простую программу подсчета слов в Python, используя Hadoop и mrjob . У меня есть псевдораспределенная установка Hadoop 2.7.3 на одном экземпляре t2.micro EC2. Программа запускается как: python mr_word_count.py -r hadoop...
52 просмотров
schedule 14.10.2022