Weka: слишком оптимистичные результаты

Я использую Weka для выполнения некоторых задач по классификации. Поскольку я использую SVM, вероятность ложных срабатываний равна 0. Это очень оптимистично для меня для задачи классификации. Кроме того, в некоторых из моих предыдущих экспериментов я видел оптимистичные результаты, такие как показатели точности и припоминания, равные 100. Мой вопрос: если у вас есть такие оптимистичные результаты, каковы возможности, для которых это происходит? И какие есть средства?


person Rushdi Shams    schedule 19.03.2013    source источник
comment
Ложноположительный показатель 0 может означать, что вы всегда или почти всегда прогнозируете отрицательный результат; каков процент ложноотрицательных результатов? Точность и отзыв 100 одновременно означают, что либо ваша проблема довольно проста, либо (что может быть более вероятно) в вашей обработке данных есть ошибка; возможно, в вашем коде неправильные метки или что-то в этом роде.   -  person Danica    schedule 19.03.2013
comment
Спасибо @ Дугал. Частота ложноотрицательных результатов довольно велика, но истинно отрицательная частота равна 1. Это означает, что SVM находит все отрицательными. Проблема не совсем простая, так как у меня около 3000 экземпляров. Однако у меня всего 3 переменные (включая функцию класса). Проблема заключается в проблеме бинарной классификации (обнаружение спама). Если я добавлю другие функции, то этого оптимистичного результата не будет.   -  person Rushdi Shams    schedule 19.03.2013
comment
Возможно, мы сталкиваемся с одной и той же проблемой, но по-разному: дающие поляризованные предвзятые результаты"> stackoverflow.com/questions/15479779/   -  person Rushdi Shams    schedule 19.03.2013
comment
Что ж, если ваш SVM получает все отрицательные результаты, это объясняет, почему вы видите 0 ложных срабатываний. Попробуйте нормализовать функции, если вы еще этого не сделали, и вы можете попробовать установить ставки класса. Какова реальная доля положительных результатов в ваших обучающих/тестовых наборах? Вы также можете попробовать поиграть с весами классов, чтобы сделать ложноположительный результат не таким плохим, как ложноотрицательный. Тем не менее, двух функций очень мало для чего-то вроде обнаружения спама, и неудивительно, что вы видите, что он просто предсказывает среднее значение, если не так много сигнала для извлечения.   -  person Danica    schedule 19.03.2013
comment
Также попробуйте использовать разные ядра и убедитесь, что вы настраиваете пропускную способность ядра и срок штрафа за маржу SVM.   -  person Danica    schedule 19.03.2013
comment
Переоснащение и ошибочная оценка (относительно разделения обучения/тестирования)?   -  person Has QUIT--Anony-Mousse    schedule 19.03.2013