Понимание функции потерь в исследовательской статье Yolo v1

Я не могу понять следующий фрагмент текста из исследовательской работы YOLO v1:

«Мы используем сумму квадратичной ошибки, потому что ее легко оптимизировать, однако это не совсем соответствует нашей цели максимизации средней точности. Он взвешивает ошибку локализации в равной степени с ошибкой классификации, которая может быть не идеальной. Кроме того, в каждом изображении многие ячейки сетки не содержат никаких объектов. Это приближает оценки «достоверности» этих ячеек к нулю, часто превосходя градиент от ячеек, которые действительно содержат объекты. Это может привести к нестабильности модели, что приведет к расхождению в обучении на раннем этапе. Чтобы исправить это , мы увеличиваем потери от предсказаний координат ограничивающего прямоугольника и уменьшаем потери от предсказаний достоверности для ящиков, которые не содержат объектов. Для этого мы используем два параметра, лямбда (координаты) и лямбда (noobj). Мы устанавливаем лямбда (координаты) = 5 и лямбда (noobj) = .5 "

Что означает «подавляющее» в первом абзаце и почему мы должны уменьшать потери от предсказания уверенности (не должно ли оно уже быть низким, особенно для блоков, которые не содержат никаких объектов) и увеличивать потери от предсказаний ограничивающего прямоугольника?


person roll no. 1    schedule 28.03.2018    source источник


Ответы (1)


Есть ячейки, в которых есть объекты, а в них нет. Модель часто очень уверена в отсутствии (близость к нулю) объекта в ячейке сетки, она делает градиент из этих ячеек намного больше, чем градиент из ячеек, которые действительно содержат объекты, но не с большой уверенностью, он подавляет их (т.е. 0,7-0,8). Так что мы хотим считать оценку классификации менее важной, потому что она не очень "честная", для реализации этого мы увеличиваем вес для предсказания coords, чем для классификации.

person Dmitry    schedule 29.03.2018
comment
Спасибо за ответы. Я понимаю вашу точку зрения относительно справедливости оценок, но я все еще не могу понять, почему градиенты будут выше для ячеек, не содержащих объектов. Будет очень полезно, если вы сможете подробнее рассказать об этом вопросе, касающемся градиентов. - person roll no. 1; 29.03.2018