Я пытаюсь создать индивидуальную среду для обучения с подкреплением с помощью тренажерного зала openAI. Мне нужно представить все возможные значения, которые среда будет видеть в переменной с именем observation_space
. Агент может использовать 3 возможных действия под названием action_space
Чтобы быть более конкретным, observation_space
- это датчик температуры, который будет видеть возможные диапазоны от 50 до 150 градусов, и я думаю, что могу представить все это следующим образом:
ИЗМЕНИТЬ, у меня был неправильный массив numpy action_space
import numpy as np
action_space = np.array([ 0, 1, 2])
observation_space = np.arange(50,150,1)
Есть ли лучший метод, который я мог бы использовать для observation_space
, где я мог бы хранить данные? То есть сделать 20 ячеек 50-55, 55-60, 60-65 и т. Д.
Я думаю, что то, что у меня есть, будет работать, но кажется несколько громоздким ... И я уверен, что есть лучшая практика, поскольку в этом предмете с моей стороны не так много мудрости. Это распечатает таблицу Q:
action_size = action_space.shape[0]
state_size = observation_space.shape[0]
qtable = np.zeros((state_size, action_size))
print(qtable)