Weka: слишком оптимистичные результаты

Я использую Weka для выполнения некоторых задач по классификации. Поскольку я использую SVM, вероятность ложных срабатываний равна 0. Это очень оптимистично для меня для задачи классификации. Кроме того, в некоторых из моих предыдущих экспериментов я видел оптимистичные результаты, такие как показатели точности и припоминания, равные 100. Мой вопрос: если у вас есть такие оптимистичные результаты, каковы возможности, для которых это происходит? И какие есть средства?

Rushdi Shams 19.03.2013 источник

comment

Ложноположительный показатель 0 может означать, что вы всегда или почти всегда прогнозируете отрицательный результат; каков процент ложноотрицательных результатов? Точность и отзыв 100 одновременно означают, что либо ваша проблема довольно проста, либо (что может быть более вероятно) в вашей обработке данных есть ошибка; возможно, в вашем коде неправильные метки или что-то в этом роде. - Danica 19.03.2013

comment

Спасибо @ Дугал. Частота ложноотрицательных результатов довольно велика, но истинно отрицательная частота равна 1. Это означает, что SVM находит все отрицательными. Проблема не совсем простая, так как у меня около 3000 экземпляров. Однако у меня всего 3 переменные (включая функцию класса). Проблема заключается в проблеме бинарной классификации (обнаружение спама). Если я добавлю другие функции, то этого оптимистичного результата не будет. - Rushdi Shams 19.03.2013

comment

Возможно, мы сталкиваемся с одной и той же проблемой, но по-разному: дающие поляризованные предвзятые результаты"> stackoverflow.com/questions/15479779/ - Rushdi Shams 19.03.2013

comment

Что ж, если ваш SVM получает все отрицательные результаты, это объясняет, почему вы видите 0 ложных срабатываний. Попробуйте нормализовать функции, если вы еще этого не сделали, и вы можете попробовать установить ставки класса. Какова реальная доля положительных результатов в ваших обучающих/тестовых наборах? Вы также можете попробовать поиграть с весами классов, чтобы сделать ложноположительный результат не таким плохим, как ложноотрицательный. Тем не менее, двух функций очень мало для чего-то вроде обнаружения спама, и неудивительно, что вы видите, что он просто предсказывает среднее значение, если не так много сигнала для извлечения. - Danica 19.03.2013

comment

Также попробуйте использовать разные ядра и убедитесь, что вы настраиваете пропускную способность ядра и срок штрафа за маржу SVM. - Danica 19.03.2013

comment

Переоснащение и ошибочная оценка (относительно разделения обучения/тестирования)? - Has QUIT--Anony-Mousse 19.03.2013

Weka: слишком оптимистичные результаты

Похожие вопросы