Я хотел бы использовать FP-Growth из Spark MLlib в Spark 2.1.
Мои данные имеют только два столбца item_group
и item
.
Я пробовал следующее, но это не работает:
sc = SparkSession.builder.appName("Assoziationsanalyse").getOrCreate()
hiveCtx = SQLContext(sc)
input = hiveCtx.sql("""select * from bosch.input_view""").
groupBy("item_group").
agg(collect_list("item")).
alias("items").
rdd.
map(lambda x : x.items)
model = FPGrowth.train(input, minSupport=0.2, numPartitions=10)
item_group
уникален. Это правильно? В данном конкретном случаеgroupBy
+collect_list
будет простым преобразованием для создания столбца массива, который ожидает FPGrowth. - person Jacek Laskowski   schedule 12.05.2017item_group
представляет корзину, в приведенной выше таблице по совпадению каждыйitem_group
появляется только один раз. - person Veysel Ko   schedule 12.05.2017