Изучение движков фильтров

Существуют ли какие-либо «интеллектуальные» или «обучающиеся» движки, способные идентифицировать «злые» фразы в текстах (может быть, что-то вроде обучающегося спам-фильтра... например, используемого в Thunderbird?)

Например, если я хочу фильтровать тексты с почтовыми адресами:

asdasd asd as d dgfdgfdgfdg sadasd(at)asfsdf.com

Сначала инструмент не распознал бы это как адрес электронной почты ... но если пользователь «обучил» (например, нажал кнопку «текст содержит почтовый адрес») инструмент несколько раз, этот текст, который содержит такие фразы, как «xxxxx( at)xxxxx.xx" подозрительно, он "узнает", что должен автоматически помечать этот текст в будущем...

Вопрос: Есть ли что-то подобное на рынке? Я нашел некоторые библиотеки (например, SpamAssasin и т. д.), но они «специализировались» на электронных письмах...

filter search-engine

David 02.12.2009 источник

Ответы (2)

arrow_upward
2
arrow_downward

Общая идея, о которой вы говорите, — это байесовский фильтр< /а>. Возможно, это поможет вам в ваших поисках.

Изменить: несколько других примеров:

Adam W 02.12.2009

arrow_upward
1
arrow_downward

Да, это хорошее начало: http://nbayes.codeplex.com/ ( C# реализация байесовский алгоритм)

David 02.12.2009

Изучение движков фильтров

Ответы (2)

Похожие вопросы