CE-loss суммирует потери по всем выходным узлам.
Sum_i [- target_i * log (output_i)].
Производная CE-потерь: - target_i / output_i.
Поскольку для target = 0 потери и производная потерь равны нулю независимо от фактического выхода, кажется, что только узел с target = 1 получает обратную связь о том, как корректировать веса.
Я также заметил особенность производной для output = 0. Как это обрабатывается во время обратного распространения ошибки?
Я не вижу, как веса корректируются, чтобы соответствовать цели = 0. Может тебе виднее :)