Рассчитывайте на то, что RDD даст разные результаты

У меня есть RDD с более чем 75 миллионами строк, и когда я вызываю на нем функцию count, я каждый раз получаю разные числа. Насколько я понимаю, счет должен давать точное число.

Изменить

Просто чтобы дать представление о данных, структура примерно такая

Userid: 1  
Date: 8/15/2015  
Location: Building 1  
...  
Date 8/1/2015  
Location: Building 5  
...  

Userid: 2  
Date: 7/30/2015  
Location: Building 10 
...
Date: 6/1/2015  
Location: Building 3 
...

Ключ раздела: Userid
Ключ кластеризации: Date ORDER BY DESC

Версия Spark: 1.2.2
Данные взяты из Cassandra
Используемый API: Scala
Spark Cassandra Connector версии 1.2.2
Я только что прочитал данные из Cassandra и использовал карту, чтобы получить только Userid и Location.


person sourabh0612    schedule 18.08.2015    source источник
comment
Изменяется ли ваш базовый источник данных? Каждый запуск попадает в источник данных, если он не кэширован.   -  person Justin Pihony    schedule 18.08.2015
comment
источник данных тот же. Я использую искровую оболочку, не знаю, имеет ли это какое-то значение   -  person sourabh0612    schedule 18.08.2015
comment
Вероятно, это глупый вопрос, но вы уверены, что это статическая база данных? Я имею в виду, что пока вы работаете со Spark, других операций нет.   -  person zero323    schedule 18.08.2015
comment
да, я совершенно уверен, что это статическая база данных и никакие другие операции не выполняются, пока я работаю   -  person sourabh0612    schedule 18.08.2015
comment
Если вы получаете количество от самой Cassandra, используя cqlsh или что-то еще, этот счет также отличается каждый раз, когда вы его запрашиваете?   -  person evgenii    schedule 19.08.2015
comment
я получаю тайм-ауты на cqlsh, поскольку count (*) - очень дорогой запрос, хотя я не пытался увеличивать тайм-аут   -  person sourabh0612    schedule 19.08.2015
comment
Пожалуйста, покажите код, который вы используете   -  person The Archetypal Paul    schedule 25.08.2015


Ответы (1)


Я использовал уровень согласованности чтения Local_One, и использование согласованности Quorum решило проблему. Основная проблема заключалась в том, что у нас было большое количество выпавших мутаций для одного из наших узлов.

person sourabh0612    schedule 26.08.2015