Вопросы по теме 'mrjob'
Запишите некоторые данные (строки) из моих картографов в отдельные каталоги в зависимости от некоторой логики в моем коде картографа.
Я использую mrjob для своих нужд EMR.
Как мне записать некоторые данные (строки) из моих картографов в «отдельные каталоги» в зависимости от некоторой логики в моем коде картографа, которую я могу:
tar gzip и
загружать в отдельные корзины...
312 просмотров
schedule
30.03.2022
Почему я получил WindowsError [Error5] Отказано в доступе при запуске файла python с помощью mrjob
Я пытаюсь использовать mrjob в файле python и запустить его в командной строке, но я продолжаю получать журнал ошибок, говорящий:
C:\Users\Ni\Desktop>python si601lab6_sol.py pg1268.txt
no configs found; falling back on auto-configuration
no...
3786 просмотров
schedule
06.03.2024
socket.gaierror при попытке запустить emr с помощью python mrjob
В настоящее время я пытаюсь изучить mrjob и как реализовать его в AWS EMR, поэтому, пожалуйста, простите меня, если я задаю уже заданный вопрос [искал во многих местах, но не нашел ответа], и извините, если это глупый вопрос.
Это мой скрипт на...
129 просмотров
schedule
23.05.2024
Читать несколько файлов HDFS или файлов S3 с помощью mrjob?
У меня большой объем данных хранится в системе HDFS (или, как вариант, в Amazon S3).
Я хочу обработать его с помощью mrjob.
К сожалению, когда я запускаю mrjob и указываю имя файла HDFS или имя содержащего каталога, я получаю сообщение об...
568 просмотров
schedule
23.08.2022
Ошибка при запуске MRJOB на AWS
Я поместил файл mrjob.conf в каталог /home и попытался запустить задание из команды, и я получаю эту ошибку:
Файл "/Users/bimalthapa/anaconda/lib/python2.7/site-packages/mrjob-0.4.6-py2.7.egg/mrjob/conf.py", строка 283, в conf_object_at_path с...
124 просмотров
schedule
21.07.2022
Подключение HIVE в MRJob
Сценарий: мне нужно обработать файл (ввод), и для каждой записи мне нужно проверить, соответствуют ли определенные поля во входном файле полям, хранящимся в кластере Hadoop.
Мы планируем использовать MRJob для обработки входного файла и...
183 просмотров
schedule
02.03.2024
MRJob сохраняет вывод в файл
Используя библиотеку MRJob, вывод редьюсера выводится в консоль, а стандартный вывод является выводом по умолчанию. Как я могу указать файл для вывода, чтобы результаты не печатались, а записывались в этот файл.
EDIT: есть еще один вопрос...
1034 просмотров
schedule
22.01.2023
Неверный входной путь при настройке простого задания MRJob на экземпляре EC2 с одним узлом
Я пытаюсь запустить простую программу подсчета слов в Python, используя Hadoop и mrjob . У меня есть псевдораспределенная установка Hadoop 2.7.3 на одном экземпляре t2.micro EC2. Программа запускается как:
python mr_word_count.py -r hadoop...
52 просмотров
schedule
14.10.2022