Здравствуйте, я работаю над полным контролем проблемы с тележкой (перевернутый маятник). Моя цель состоит в том, чтобы система достигла стабильности, что означает, что все состояния (x, xdot, theta и theta) должны сходиться к нулю. Я использую q-обучение с функцией вознаграждения, как определено ниже.
Q_table[pre_s + (a,)] += alpha * (R + gamma *(argmax(Q_table[s])) - Q_table[pre_s + (a,)])
R=1000*cos(theta)-1000*(theta_dot**2)-100*(x_dot**2)-100*(x**2)
к сожалению, сходимости нет. По графику q-таблицы я вижу, что он увеличивается и стабилизируется на максимальном значении, но состояния просто остаются в пределах определенной границы и не достигают нуля. Я чувствую, что мой агент недостаточно быстро учится, и в какой-то момент я больше не учусь. Может кто-нибудь помочь мне.
alpha
и вашей стратегии исследования (наверное, жадной). - person Simon   schedule 08.11.2018