ELKI, выход: ROCAUC, Precision@k, f1.maximum

Для чего используется Precision @ k в случае выброса? (при изменении k в одном и том же наборе данных я всегда получаю: Precision @ 3016, и я не понимаю, откуда у ELKI это число, количество выбросов равно 1508)

а также

точность.средняя и точность.r?

а f1.максимум?

Я знаю, что ROCAUC — это мера того, насколько хорошо алгоритм помечает выбросы как выбросы, а нормали — как нормальные объекты.

Я хочу посмотреть, хорошее ли качество обнаружения выбросов. Могу ли я сделать то же самое с другими мерами?

Computing LDOFs
LDOF for objects: 49534 [100%]
de.lmu.ifi.dbs.elki.algorithm.outlier.lof.LDOF.runtime: 116887 ms
Evaluating using minority class: yes
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.rocauc: 0.736341684836717
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.precision.average: 0.10795456476088741
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.precision.r: 0.16578249336870027
de.lmu.ifi.dbs.elki.evaluation.outlier.OutlierRankingEvaluation.f1.maximum: 0.18336314847942753
ROCAUC: 0.7363416848367167
Precision @ 3016 0.13726790450928383

person limoan    schedule 01.08.2015    source источник


Ответы (1)


R-точность - это Precision@k с k = числом выбросов в вашей основной истине. На данный момент отзыв = точность. Так что в вашем случае это будет точность @ 1508. «r» происходит от точки «отзыв = точность».

Это не параметр k алгоритма. Но оба обычно называются k в литературе.

Максимум F1 — это максимальное значение показателя F1 (точности и полноты), которое можно получить, изменяя отсечку k. Итак, существует k, где среднее гармоническое точности и полноты равно 0,18336.

Средняя точность — это обычная средняя точность; оценивается по каждому выбросу, затем усредняется.

Подробнее см., например. https://en.wikipedia.org/wiki/Information_retrieval

Precision@2k — это артефакт: автоматическая оценка будет давать кривую Precision@k до 2k (обычно интересующая область). Кривая будет выводить точность в конце кривой; но обычно это не особенно полезно (вы можете вручную настроить максимальное k, чтобы обрезать кривую, но это не делает это k интересным для оценки). я уберу это из занятий; а также второй вывод ROCAUC также не требуется (также исходящий из визуальной оценки кривой).

person Erich Schubert    schedule 03.08.2015