Разница между закрытым и открытым алгоритмами последовательного паттерна майнинга

Я хочу использовать некоторые алгоритмы для анализа данных журнала.

Я нашел структуру анализа шаблонов на: http://www.philippe-fournier-viger.com/spmf/index.php?link=algorithms.php

Я пробовал несколько алгоритмов, алгоритм BIDE+ работает лучше всего.

Алгоритм BIDE+ предназначен для извлечения частых закрытых последовательных шаблонов из базы данных последовательностей.

Может ли кто-нибудь объяснить определение «закрытых» последовательных шаблонов и открытых?


person leon    schedule 22.04.2013    source источник


Ответы (3)


Рад, что вы используете мое программное обеспечение SPMF.

Поддержка последовательного шаблона – это количество последовательностей, содержащих этот последовательный шаблон.

Часто повторяющийся шаблон – это шаблон, который появляется как минимум в последовательностях "minsup" в базе данных последовательностей, где minsup – это параметр, заданный пользователем.

Частый закрытый последовательный шаблон — это частый последовательный шаблон, не включенный в другой последовательный шаблон, имеющий точно такую ​​же поддержку.

Такие алгоритмы, как PrefixSpan, находят частые последовательные шаблоны. Такие алгоритмы, как BIDE+, находят частые закрытые последовательные шаблоны. BIDE+ обычно намного быстрее, чем PrefixSpan, потому что он использует методы сокращения, чтобы избежать создания всех последовательных шаблонов. Кроме того, набор закрытых шаблонов обычно намного меньше, чем набор последовательных шаблонов, поэтому BIDE+ также более эффективно использует память.

Еще одна важная вещь, которую нужно знать, это то, что закрытые последовательные шаблоны представляют собой компактное и без потерь представление всех последовательных шаблонов. Это означает, что набор замкнутых последовательных паттернов обычно намного меньше, но он без потерь, а значит, позволяет восстановить полный набор последовательных паттернов (отсутствие информации — потеря), что очень удобно.

Я могу привести простой пример.

Рассмотрим 4 последовательности:

a  b  c  d  e
a  b  d
b  e  a  
b  c  d  e

Допустим, minup = 2.

b c является частым последовательным шаблоном, потому что он появляется в двух последовательностях (имеется поддержка 2). b c не является закрытым последовательным шаблоном, поскольку он содержится в более крупном последовательном шаблоне b c d, имеющем такую ​​же поддержку.

b c d имеет поддержку 2. Это также не закрытый последовательный шаблон, поскольку он содержится в более крупном последовательном шаблоне b c d e, имеющем такую ​​же поддержку. b c d e является закрытым последовательным шаблоном, потому что он не включен ни в один другой последовательный шаблон, имеющий такую ​​же поддержку.

Кстати, вы также можете ознакомиться с моим опросом о последовательном анализе шаблонов. Это дает хорошее введение в эту тему и различные алгоритмы.

person Phil    schedule 26.04.2013
comment
Это поможет моей диссертации. Шутки в сторону. Спасибо! - person R Claven; 07.05.2015
comment
Прежде всего, спасибо за ваш опрос и SPMF, и здесь ваше объяснение достаточно ясное, но пример может быть не совсем уместным, так как шаблон b c появляется в трех последовательностях (1,3,4), поэтому небольшое изменение может быть лучше . - person LancelotHolmes; 24.10.2017
comment
@LancelotHolmes Спасибо за комментарий. Да, ты прав. Исправлена ​​эта ошибка. Рад, что вам понравился опрос и SPMF :-) - person Phil; 25.10.2017
comment
Отличное объяснение концепции закрыто-открыто. - person linello; 20.02.2020
comment
Привет, а как насчет sequential generator patterns? что за генератор? Я не могу найти никаких подробностей об этом через Google. - person Joke Huang; 25.05.2020

Ознакомьтесь с этой главой, посвященной наборам часто используемых элементов и Наборы частых элементов Mining & Association Rules

person babalu    schedule 25.04.2013

Google для "закрытых частых наборов элементов". Будет много страниц, объясняющих это, как и в любой книге по интеллектуальному анализу данных (ищите алгоритм APRIORI).

"Закрыто" означает, что нет более крупного набора элементов с такой же поддержкой. Могут быть большие наборы элементов, но они должны иметь более низкую поддержку.

В большинстве случаев достаточно либо рассматривать максимальные, либо только закрытые наборы элементов.

person Has QUIT--Anony-Mousse    schedule 23.04.2013