Обученный классификатор / модель машинного обучения спама

У меня есть список предложений примерно 17 миллионов. Мне нужно определить предложение как спам / любительский / неуверенный. Существуют ли в Интернете обученные модели, которым я мог бы просто передать свои данные в качестве «тестового» набора, и система классифицировала бы мое предложение как спам / хам?

Примечание: предложения не являются электронными письмами.


person Dexter    schedule 16.07.2010    source источник


Ответы (1)


Вы можете использовать байесовскую фильтрацию спама, взгляните на эту статью, довольно неплохо, чтобы понять теорию http://robotics.stanford.edu/users/sahami/papers-dir/spam.pdf

person 404Dreamer_ML    schedule 16.02.2011