Я использую последнюю транковую версию реализации mahout PFP Growth поверх кластера hadoop, чтобы определить частые закономерности в наборе данных movielens. На предыдущем шаге я преобразовал набор данных в список транзакций, так как алгоритм роста pfp нуждается в этом входном формате.
Однако результат, который я получаю, неожиданный
Например, для элемента 1017 единственным частым шаблоном является
1017 ([100,1017, 50])
Я также ожидал бы, что шаблон типа ([1017], X) с X ›= 50 в этой строке.
Я также тестирую пример ввода
1,2,3
1,2,3
1,3
и результат, который я получаю,
1 ([1, 3],3), ([1],3), ([1, 3, 2],2)
2 ([1, 3, 2],2)
3 ([1, 3],3), ([1, 3, 2],2)
Отсутствуют такие шаблоны, как ([1,2],2)
Что не так?