Агрегация набора данных Spark аналогична агрегации RDD (ноль) (накопление, объединитель)

RDD имеет очень полезный агрегатный метод, который позволяет накапливать с некоторым нулевым значением и объединять его между разделами. Есть ли способ сделать это с помощью Dataset[T]. Насколько я вижу спецификацию через Scala doc, на самом деле нет ничего, что могло бы это сделать. Даже метод сокращения позволяет делать что-то только для бинарных операций с T в качестве обоих аргументов. Любая причина, почему? И есть ли что-нибудь, способное сделать то же самое?

Большое спасибо!

Viktor Khristenko 21.02.2017 источник

Ответы (1)

arrow_upward
4
arrow_downward

Есть два разных класса, которые можно использовать для достижения aggregate поведения в Dataset API:

UserDefinedAggregateFunction, который использует SQL набирает и принимает Columns в качестве входных данных.

Начальное значение определяется методом initialize, seqOp методом update и combOp методом merge.

Пример реализации: Как определить пользовательскую функцию агрегирования для суммирования столбца векторов?
Aggregator, который использует стандартные типы Scala с Encoders и принимают записи в качестве входных данных.

Начальное значение определяется методом zero, seqOp методом reduce и combOp методом merge.

Пример реализации: Как найти среднее значение сгруппированных векторных столбцов в Spark SQL?

Оба предоставляют дополнительный метод финализации (evaluate и finish соответственно), который используется для получения окончательных результатов и может использоваться как для глобальных агрегаций, так и для агрегаций по ключам.

zero323 21.02.2017

Агрегация набора данных Spark аналогична агрегации RDD (ноль) (накопление, объединитель)

Ответы (1)

Похожие вопросы