У меня есть файл, в котором каждая строка является записью. Я хочу, чтобы все записи с одинаковым значением в определенном поле (вызовите, если поле A) перешли к одному и тому же сопоставителю. Я слышал, что это называется соединением на стороне карты, и я также слышал, что это легко сделать, если записи в файле отсортированы по тому, что я называю полем А.
Если бы было проще, данные можно было бы разнести по нескольким файлам, но каждый файл сортировать по полю А.
Это правильно? Как мне это сделать с потоковой передачей? Я использую Python. Предположим, это просто часть команды, которую я использую для запуска Hadoop?