Сценарий: мне нужно обработать файл (ввод), и для каждой записи мне нужно проверить, соответствуют ли определенные поля во входном файле полям, хранящимся в кластере Hadoop.
Мы планируем использовать MRJob для обработки входного файла и использовать HIVE для получения данных из кластера hadoop. Я хотел бы знать, могу ли я подключить HIVE внутри модуля MRJob. Если да, то как это сделать?
Если нет, что было бы идеальным подходом для выполнения моего требования.
Я новичок в Hadoop, MRJob и Hive.
Пожалуйста, дайте какое-нибудь предложение.