Агрегация набора данных Spark аналогична агрегации RDD (ноль) (накопление, объединитель)

RDD имеет очень полезный агрегатный метод, который позволяет накапливать с некоторым нулевым значением и объединять его между разделами. Есть ли способ сделать это с помощью Dataset[T]. Насколько я вижу спецификацию через Scala doc, на самом деле нет ничего, что могло бы это сделать. Даже метод сокращения позволяет делать что-то только для бинарных операций с T в качестве обоих аргументов. Любая причина, почему? И есть ли что-нибудь, способное сделать то же самое?

Большое спасибо!

VK


person Viktor Khristenko    schedule 21.02.2017    source источник


Ответы (1)


Есть два разных класса, которые можно использовать для достижения aggregate поведения в Dataset API:

Оба предоставляют дополнительный метод финализации (evaluate и finish соответственно), который используется для получения окончательных результатов и может использоваться как для глобальных агрегаций, так и для агрегаций по ключам.

person zero323    schedule 21.02.2017