У меня есть ключевое значение RDD, где ключи могут быть любыми между 1
и 5
. Количество записей в RDD исчисляется миллионами. Мне нужно вывести RDD с 10 000 записей каждого ключа.
Пример RDD [(String, String)] для 3 разных ключей:
1 a
2 b
3 b
2 c
1 d
2 e
2 f
2 c
1 d
3 e
2 f
Если мне нужны две любые 2 записи каждого ключа, вывод может быть:
1 a
1 f
2 c
2 d
3 c
3 d