Подход нейронной сети к обнаружению спама в электронных письмах

Я создаю систему обнаружения спама с использованием нейронных сетей. Я не могу понять, как продолжить то, что у меня есть сейчас.

У меня - непрочитанные письма помечаются как прочитанные и конвертируются в почтовые векторы с использованием взвешивания tf-idf. В общем, мое электронное сообщение выглядит так:

Email : (Word1,Score1),(Word2,Score2)...

После выполнения (синтаксический анализ, выделение корней, удаление стоп-слов и преобразование tf-idf). Я читал о сети обратной связи, обученной через обратное распространение, и, похоже, это наиболее распространенный подход. В принципе, как мне дополнительно уменьшить размерность векторов, которые у меня есть, и как подать их в качестве входных данных. Кроме того, как ведет себя скрытый слой и как количество нейронов скрытого слоя влияет на производительность нейронной сети. Кроме того, чем вектор признаков отличается от того, что есть у меня? Как мне сформировать вектор признаков?

Спасибо. Жду некоторой ясности.


person Hooli    schedule 04.11.2012    source источник
comment
stackoverflow.com/questions/770238/ - вот где вы найдете больше ясности.   -  person cggaurav    schedule 04.11.2012
comment
Спасибо cggaurav. Я прошел через это. Помогает :)   -  person Hooli    schedule 04.11.2012