Я взял несколько эталонных реализаций алгоритма PPO и пытаюсь создать агента, который может играть в космических захватчиков. К сожалению, начиная со второго испытания (после обучения актера и критика N Networks в первый раз) распределение вероятностей действий сходится только на действии, а потеря PPO и потеря критика сходятся только на одном значении.
Хотел понять вероятные причины, по которым это могло произойти. Я действительно не могу запустить код на своих облачных виртуальных машинах, не будучи уверенным, что я ничего не упускаю, поскольку виртуальные машины очень дороги в использовании. Я был бы признателен за любую помощь или совет в этом отношении ... при необходимости я также могу опубликовать код. Используются следующие гиперпараметры:
clipping_val = 0,2 crit_discount = 0,5 entropy_beta = 0,001 гамма = 0,99 лямбда = 0,95