Я создаю систему обнаружения спама с использованием нейронных сетей. Я не могу понять, как продолжить то, что у меня есть сейчас.
У меня - непрочитанные письма помечаются как прочитанные и конвертируются в почтовые векторы с использованием взвешивания tf-idf. В общем, мое электронное сообщение выглядит так:
Email : (Word1,Score1),(Word2,Score2)...
После выполнения (синтаксический анализ, выделение корней, удаление стоп-слов и преобразование tf-idf). Я читал о сети обратной связи, обученной через обратное распространение, и, похоже, это наиболее распространенный подход. В принципе, как мне дополнительно уменьшить размерность векторов, которые у меня есть, и как подать их в качестве входных данных. Кроме того, как ведет себя скрытый слой и как количество нейронов скрытого слоя влияет на производительность нейронной сети. Кроме того, чем вектор признаков отличается от того, что есть у меня? Как мне сформировать вектор признаков?
Спасибо. Жду некоторой ясности.