Публикации по теме 'openai-gym'
Инжиниринг позади RL
Моя первая попытка реализовать алгоритм обучения с подкреплением началась с OpenAI Gym и его среды CartPole. Точнее, то, что я делал, я делаю каждый раз: пытаюсь найти эталонные решения, чтобы понять, что это будет в реальном коде.
И что я нашел сначала: https://keon.io/deep-q-learning/ . Этот пост в блоге достаточно хорош, поэтому он предоставляет простой исходный код с пояснениями. На самом деле реализация была настолько простой, что я был почти уверен, что смогу сделать лучше,..
Вопросы по теме 'openai-gym'
Проблемы с импортом тренажерного зала и вселенной (из OpenAI)
Я установил два пакета: gym и universe , но не могу импортировать их в свою IDE (LiClipse), и я не совсем понимаю, почему. При установке оба были добавлены в корневой каталог, поэтому я переместил их в ту же папку, что и файл моего проекта,...
903 просмотров
schedule
16.09.2022
Подходит ли Deep Q Learning для решения задачи Cartpole?
Я новичок в обучении с подкреплением. Недавно я пытался обучить сеть Deep Q решению задачи CartPole-v0 спортзала OpenAI, где решение означает достижение среднего балла не менее 195,0 за 100 последовательных эпизодов.
Я использую двухслойную...
708 просмотров
schedule
12.08.2022
openAi-gym NameError
Я пытаюсь использовать знаменитый модуль «Тренажерный зал» из OpenAI на WSL и выполняю код на python 3.5.2. Когда я пытаюсь запустить среду , как описано здесь , используя код:
import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):...
5393 просмотров
schedule
15.11.2022
Реализация методов итерации политики в Open AI Gym
В настоящее время я читаю «Обучение с подкреплением» от Sutton & Barto и пытаюсь написать некоторые методы самостоятельно.
Итерация политики - это то, над чем я сейчас работаю. Я пытаюсь использовать OpenAI Gym для решения простой задачи, такой...
1289 просмотров
schedule
25.12.2021
какими должны быть размеры Q-матрицы в открытой среде для Q-обучения
Я хочу внедрить Q-обучение в Bipedal Walker v2 OpenAI, но после поиска руководств они кажутся всегда ограниченными средами, которые упрощают инициализацию Q-матрицы и матрицы вознаграждения.
например:...
334 просмотров
schedule
26.08.2022
openai gym env.P, объект AttributeError 'TimeLimit' не имеет атрибута 'P'
В настоящее время я читаю Практическое обучение с подкреплением с помощью Python Судхарсана Равичандирана, и в одном из первых примеров я столкнулся с этой ошибкой AttributeError:
AttributeError 'TimeLimit' object has no attribute 'P'...
4669 просмотров
schedule
07.04.2023
Как реализовать Q-обучение, чтобы приблизиться к оптимальному управлению?
Я заинтересован во внедрении Q-обучения (или какой-либо формы обучения с подкреплением), чтобы найти оптимальный протокол. В настоящее время у меня есть функция, написанная на Python, где я могу принимать протокол или «действие» и «состояние» и...
918 просмотров
schedule
01.02.2024
Отображать тренажерный зал OpenAI только в ноутбуке Jupyter
Я хочу поиграть с тренажерными залами OpenAI в ноутбуке, при этом тренажерный зал отображается в режиме реального времени.
Вот простой пример:
import matplotlib.pyplot as plt
import gym
from IPython import display
%matplotlib inline
env =...
14046 просмотров
schedule
13.10.2022
Как я могу зарегистрировать настраиваемую среду в тренажерном зале OpenAI?
Я создал настраиваемую среду в соответствии с платформой OpenAI Gym; содержащие функции step , reset , action и reward . Я стремлюсь запустить базовые версии OpenAI в этой настраиваемой среде. Но перед этим среда должна быть зарегистрирована в...
12998 просмотров
schedule
23.05.2023
Зарегистрировать сбой искаженной среды OpenAI Gym
На ПК с Linux я пытаюсь создать настраиваемую открытую среду AI Gym. Я могу пройти все шаги из блога, написав вверх с medium.com , включая pip install -e . , но я получаю сообщение об ошибке, когда конечный продукт создает среду env =...
2771 просмотров
schedule
26.09.2022
Как перечислить возможные состояния-преемники для каждого состояния в спортзале OpenAI? (строго для обычных МДП)
Есть ли способ перебрать каждое состояние, заставить среду перейти в это состояние, а затем сделать шаг, а затем использовать возвращенный «информационный» словарь, чтобы увидеть, каковы все возможные состояния-преемники?
Или еще более простой...
206 просмотров
schedule
05.03.2023
Python: архивирование данных openAI в тренажерном зале
Я пытаюсь создать индивидуальную среду для обучения с подкреплением с помощью тренажерного зала openAI. Мне нужно представить все возможные значения, которые среда будет видеть в переменной с именем observation_space . Агент может использовать 3...
128 просмотров
schedule
05.12.2022
Как узнать расстояние, пройденное агентом «Гуманоид-v2» после тренировки?
Я тренировал Humanoid-v2 ( https://github.com/openai/gym/wiki/Humanoid-V1 ) ходить. Награды увеличиваются во время тренировки. Но мне нужна еще одна матрица эффективности, которая сообщает мне, как далеко продвинулся агент?
Есть 376 наблюдений...
91 просмотров
schedule
13.12.2023
Мне нужна помощь в понимании кода обучения с подкреплением
Я пытался решить среду OpenAI MountainCarContinuous-v0 некоторое время, но я застрял.
Потратив недели на то, чтобы решить ее самостоятельно, теперь я просто пытаюсь понять чужой код. Вот ссылка, которую человек использовал для решения проблемы...
69 просмотров
schedule
09.07.2023
Как определить, что среда CartPole решена?
Я просматривал этот учебник и увидел следующий фрагмент кода:
# Calculate score to determine when the environment has been solved
scores.append(time)
mean_score = np.mean(scores[-100:])
if episode % 50 == 0:...
549 просмотров
schedule
01.06.2024
Обучение с подкреплением — VPG: неверный индекс для скалярной переменной Ошибка индекса
Я пытаюсь запустить алгоритм градиента политики vanilla и визуализировать среду Open AI "CartPole-v1" .
Код алгоритма приведен ниже и работает без ошибок. Блокнот Jupyer для этого кода можно найти здесь .
en%pylab inline
import tensorflow as...
329 просмотров
schedule
26.01.2024
Проблема с раскруткой OpenAI: ImportError: Ошибка загрузки DLL: указанная процедура не найдена
Прохождение серии руководств OpenAi Spinning Up ( https://spinningup.openai.com/en/latest/user/installation.html ). Когда я пытаюсь разбить их шаг
python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest...
710 просмотров
schedule
07.06.2022
Пользовательская среда OpenAI Gym: дискретное пространство для наблюдения с реальными значениями
Я хотел бы создать индивидуальную среду тренажерного зала openai с дискретным пространством состояний, но со значениями с плавающей запятой. Если быть более точным, это должен быть диапазон значений с шагом 0,25: 10,0, 10,25, 10,5, 10,75, 11,0, ...,...
1820 просмотров
schedule
28.10.2022
Как передать список кортежей в качестве области действия в OpenAI Gym?
При создании среды OpenAI Gym с нуля необходимо определить пространство действий. Это делается с их собственными «структурами данных» из пакетов «пробелов». Существует несколько различных типов пространств, таких как Box, Discrete и т. Д. У меня...
873 просмотров
schedule
23.05.2023
rllib использовать настраиваемые зарегистрированные среды
Документация Rllib предоставляет некоторую информацию о том, как создать и обучить настраиваемую среду . Есть некоторая информация о регистрации этой среды, но я предполагаю, что она должна работать иначе, чем регистрация в спортзале .
Я...
2165 просмотров
schedule
12.11.2022