Неправильный вывод алгоритма mahout PFPGrowth?

Я использую последнюю транковую версию реализации mahout PFP Growth поверх кластера hadoop, чтобы определить частые закономерности в наборе данных movielens. На предыдущем шаге я преобразовал набор данных в список транзакций, так как алгоритм роста pfp нуждается в этом входном формате.

Однако результат, который я получаю, неожиданный

Например, для элемента 1017 единственным частым шаблоном является

1017 ([100,1017, 50])

Я также ожидал бы, что шаблон типа ([1017], X) с X ›= 50 в этой строке.

Я также тестирую пример ввода

1,2,3

1,2,3

1,3

и результат, который я получаю,

1 ([1, 3],3), ([1],3), ([1, 3, 2],2)

2 ([1, 3, 2],2)

3 ([1, 3],3), ([1, 3, 2],2)

Отсутствуют такие шаблоны, как ([1,2],2)

Что не так?


person Chris    schedule 09.05.2012    source источник
comment
Я бы предположил, что PFPGrowth только вероятностно завершен? Многие распределенные алгоритмы больших данных являются лишь приблизительными.   -  person Has QUIT--Anony-Mousse    schedule 09.05.2012
comment
Его обрезает minSupport?   -  person Sean Owen    schedule 10.05.2012
comment
Вероятностный был бы очень плох. MinSupport не может быть причиной, поскольку вы можете видеть, что есть шаблоны, включенные с поддержкой 2. Вы реализовали алгоритм, Шон? Мне нужно использовать его для моей бакалаврской диссертации. Я пытаюсь увеличить рост PFP. В качестве дополнительного шага я сначала преобразую набор данных movielens в список транзакций, затем запускаю шаги роста pfp, а затем делаю еще один шаг сопоставления/уменьшения, чтобы извлечь все правила ассоциаций, включая значения для поддержки и уверенности.   -  person Chris    schedule 10.05.2012
comment
(P)FP Gwroth определенно не является вероятностным. Поэтому я ожидаю правильного и полного вывода, такого же, как и априорный алгоритм.   -  person Chris    schedule 10.05.2012
comment
непараллельный рост FP, который используется PFP, кажется, вызывает проблему. Я должен посмотреть на это немного ближе.   -  person Chris    schedule 10.05.2012
comment
Я слышал от коллег, которые тестировали реализацию FPGrowth в Mahout, что в ней есть ошибки. Сам не пробовал. Вы можете внимательно изучить документацию и связаться с авторами, если не уверены, как это работает.   -  person Phil    schedule 09.12.2014


Ответы (2)


Причина в том, что алгоритм FP не выводит подмножества частого шаблона, если его поддержка не больше. Это описано здесь: http://www.searchworkings.org/forum/-/message_boards/view_message/396093

Мне нужно переписать код для моего использования.

person Chris    schedule 11.05.2012

Я прочитал документ и код, и мне кажется, что алгоритм PFP вообще неверен. Мне интересно, почему никто этого не понял.

Это так очевидно, если вы уже знаете о FP-Growth и просто потратите пару часов, чтобы прочитать эту статью и код.

person yi-ji    schedule 20.09.2017