Обучение с подкреплением с помощью нейронных сетей

  • Я работаю над проектом с RL & NN
  • Мне нужно определить структуру вектора действия, которая будет передана в нейронную сеть.

У меня есть 3 разных действия (A & B & Nothing), каждое из которых имеет разную мощность (например, A100 A50 B100 B50). Интересно, как лучше всего передать эти действия в NN, чтобы получить наилучшие результаты?

1- подать A/B на вход 1, а мощность действия 100/50/Ничего на вход 2

2- подать A100/A50/Ничего на вход 1, а B100/B50/Ничего на вход 2

3- подайте A100/A50 на вход 1, а B100/B50 на вход 2, а флаг Ничего на вход 3

4- Также кормить 100 и 50 или нормализовать их до 2 и 1?

Мне нужны причины, чтобы выбрать один метод Любые предложения рекомендуются

Спасибо


person Betamoo    schedule 01.05.2010    source источник
comment
Сколько есть выходов и что вы хотите, чтобы происходило на разных входах? Если вы не укажете, каковы наилучшие результаты, никто не сможет вам помочь. (Кстати, сколько есть входов и как они должны взаимодействовать?)   -  person David Thornley    schedule 27.05.2010


Ответы (1)


Чему вы хотите научиться? Что должно быть на выходе? Является ли ввод только используемым действием? Если вы изучаете модель окружающей среды, она выражается распределением вероятностей:

P(next_state|состояние, действие)

Обычно для каждого действия используется отдельная модель. Это упрощает отображение между вводом и выводом. Вход представляет собой вектор признаков состояния. Выход представляет собой вектор признаков следующего состояния. Используемое действие подразумевается моделью.

Характеристики состояния могут быть закодированы как биты. Активный бит указывает на наличие функции.

Это позволит изучить детерминированную модель. Я не знаю, что является хорошим способом изучения стохастической модели следующих состояний. Одной из возможностей может быть использование стохастических нейронов.

person Ivo Danihelka    schedule 26.05.2010