Что я кодирую: я создаю простую нейронную сеть с матрицей весов w и вторым параметром u для оценки. После умножения моего входного вектора на w результат умножается на вектор u, чтобы получить результат в виде одной цифры, и это моя оценка.
Где я сейчас: я рассчитал градиенты обоих двух параметров по отношению к моей функции потерь.
Моя проблема: И теперь я застрял, что делать дальше?
Мое предложение по решению: Могу ли я обновить параметр с помощью w = w + скорость обучения * w_grad (а также для u с u = u скорость обучения * u_grad) и выполнять эту процедуру до тех пор, пока значение затрат / потерь не уменьшится. .. Это работает? Это верно? Это упрощенная реализация стохастического градиентного спуска?
Я программирую на Java, если у вас есть простой и хорошо документированный пример того, как легко оптимизировать нейронную сеть, вы можете поделиться им со мной.
Заранее спасибо!