Обучение с подкреплением с помощью нейронных сетей

Я работаю над проектом с RL & NN
Мне нужно определить структуру вектора действия, которая будет передана в нейронную сеть.

У меня есть 3 разных действия (A & B & Nothing), каждое из которых имеет разную мощность (например, A100 A50 B100 B50). Интересно, как лучше всего передать эти действия в NN, чтобы получить наилучшие результаты?

1- подать A/B на вход 1, а мощность действия 100/50/Ничего на вход 2

2- подать A100/A50/Ничего на вход 1, а B100/B50/Ничего на вход 2

3- подайте A100/A50 на вход 1, а B100/B50 на вход 2, а флаг Ничего на вход 3

4- Также кормить 100 и 50 или нормализовать их до 2 и 1?

Мне нужны причины, чтобы выбрать один метод Любые предложения рекомендуются

Спасибо

Betamoo 01.05.2010 источник

comment

Сколько есть выходов и что вы хотите, чтобы происходило на разных входах? Если вы не укажете, каковы наилучшие результаты, никто не сможет вам помочь. (Кстати, сколько есть входов и как они должны взаимодействовать?) - David Thornley 27.05.2010

Ответы (1)

arrow_upward
1
arrow_downward

Чему вы хотите научиться? Что должно быть на выходе? Является ли ввод только используемым действием? Если вы изучаете модель окружающей среды, она выражается распределением вероятностей:

P(next_state|состояние, действие)

Обычно для каждого действия используется отдельная модель. Это упрощает отображение между вводом и выводом. Вход представляет собой вектор признаков состояния. Выход представляет собой вектор признаков следующего состояния. Используемое действие подразумевается моделью.

Характеристики состояния могут быть закодированы как биты. Активный бит указывает на наличие функции.

Это позволит изучить детерминированную модель. Я не знаю, что является хорошим способом изучения стохастической модели следующих состояний. Одной из возможностей может быть использование стохастических нейронов.

Ivo Danihelka 26.05.2010

Обучение с подкреплением с помощью нейронных сетей

Ответы (1)

Похожие вопросы