У меня есть RDD с более чем 75 миллионами строк, и когда я вызываю на нем функцию count
, я каждый раз получаю разные числа. Насколько я понимаю, счет должен давать точное число.
Изменить
Просто чтобы дать представление о данных, структура примерно такая
Userid: 1
Date: 8/15/2015
Location: Building 1
...
Date 8/1/2015
Location: Building 5
...
Userid: 2
Date: 7/30/2015
Location: Building 10
...
Date: 6/1/2015
Location: Building 3
...
Ключ раздела: Userid
Ключ кластеризации: Date
ORDER BY DESC
Версия Spark: 1.2.2
Данные взяты из Cassandra
Используемый API: Scala
Spark Cassandra Connector версии 1.2.2
Я только что прочитал данные из Cassandra и использовал карту, чтобы получить только Userid
и Location
.