Публикации по теме 'openai-gym'


Инжиниринг позади RL
Моя первая попытка реализовать алгоритм обучения с подкреплением началась с OpenAI Gym и его среды CartPole. Точнее, то, что я делал, я делаю каждый раз: пытаюсь найти эталонные решения, чтобы понять, что это будет в реальном коде. И что я нашел сначала: https://keon.io/deep-q-learning/ . Этот пост в блоге достаточно хорош, поэтому он предоставляет простой исходный код с пояснениями. На самом деле реализация была настолько простой, что я был почти уверен, что смогу сделать лучше,..

Вопросы по теме 'openai-gym'

Проблемы с импортом тренажерного зала и вселенной (из OpenAI)
Я установил два пакета: gym и universe , но не могу импортировать их в свою IDE (LiClipse), и я не совсем понимаю, почему. При установке оба были добавлены в корневой каталог, поэтому я переместил их в ту же папку, что и файл моего проекта,...
903 просмотров
schedule 16.09.2022

Подходит ли Deep Q Learning для решения задачи Cartpole?
Я новичок в обучении с подкреплением. Недавно я пытался обучить сеть Deep Q решению задачи CartPole-v0 спортзала OpenAI, где решение означает достижение среднего балла не менее 195,0 за 100 последовательных эпизодов. Я использую двухслойную...
708 просмотров

openAi-gym NameError
Я пытаюсь использовать знаменитый модуль «Тренажерный зал» из OpenAI на WSL и выполняю код на python 3.5.2. Когда я пытаюсь запустить среду , как описано здесь , используя код: import gym env = gym.make('CartPole-v0') for i_episode in range(20):...
5393 просмотров

Реализация методов итерации политики в Open AI Gym
В настоящее время я читаю «Обучение с подкреплением» от Sutton & Barto и пытаюсь написать некоторые методы самостоятельно. Итерация политики - это то, над чем я сейчас работаю. Я пытаюсь использовать OpenAI Gym для решения простой задачи, такой...
1289 просмотров

какими должны быть размеры Q-матрицы в открытой среде для Q-обучения
Я хочу внедрить Q-обучение в Bipedal Walker v2 OpenAI, но после поиска руководств они кажутся всегда ограниченными средами, которые упрощают инициализацию Q-матрицы и матрицы вознаграждения. например:...
334 просмотров

openai gym env.P, объект AttributeError 'TimeLimit' не имеет атрибута 'P'
В настоящее время я читаю Практическое обучение с подкреплением с помощью Python Судхарсана Равичандирана, и в одном из первых примеров я столкнулся с этой ошибкой AttributeError: AttributeError 'TimeLimit' object has no attribute 'P'...
4669 просмотров

Как реализовать Q-обучение, чтобы приблизиться к оптимальному управлению?
Я заинтересован во внедрении Q-обучения (или какой-либо формы обучения с подкреплением), чтобы найти оптимальный протокол. В настоящее время у меня есть функция, написанная на Python, где я могу принимать протокол или «действие» и «состояние» и...
918 просмотров

Отображать тренажерный зал OpenAI только в ноутбуке Jupyter
Я хочу поиграть с тренажерными залами OpenAI в ноутбуке, при этом тренажерный зал отображается в режиме реального времени. Вот простой пример: import matplotlib.pyplot as plt import gym from IPython import display %matplotlib inline env =...
14046 просмотров

Как я могу зарегистрировать настраиваемую среду в тренажерном зале OpenAI?
Я создал настраиваемую среду в соответствии с платформой OpenAI Gym; содержащие функции step , reset , action и reward . Я стремлюсь запустить базовые версии OpenAI в этой настраиваемой среде. Но перед этим среда должна быть зарегистрирована в...
12998 просмотров
schedule 23.05.2023

Зарегистрировать сбой искаженной среды OpenAI Gym
На ПК с Linux я пытаюсь создать настраиваемую открытую среду AI Gym. Я могу пройти все шаги из блога, написав вверх с medium.com , включая pip install -e . , но я получаю сообщение об ошибке, когда конечный продукт создает среду env =...
2771 просмотров
schedule 26.09.2022

Как перечислить возможные состояния-преемники для каждого состояния в спортзале OpenAI? (строго для обычных МДП)
Есть ли способ перебрать каждое состояние, заставить среду перейти в это состояние, а затем сделать шаг, а затем использовать возвращенный «информационный» словарь, чтобы увидеть, каковы все возможные состояния-преемники? Или еще более простой...
206 просмотров

Python: архивирование данных openAI в тренажерном зале
Я пытаюсь создать индивидуальную среду для обучения с подкреплением с помощью тренажерного зала openAI. Мне нужно представить все возможные значения, которые среда будет видеть в переменной с именем observation_space . Агент может использовать 3...
128 просмотров

Как узнать расстояние, пройденное агентом «Гуманоид-v2» после тренировки?
Я тренировал Humanoid-v2 ( https://github.com/openai/gym/wiki/Humanoid-V1 ) ходить. Награды увеличиваются во время тренировки. Но мне нужна еще одна матрица эффективности, которая сообщает мне, как далеко продвинулся агент? Есть 376 наблюдений...
91 просмотров
schedule 13.12.2023

Мне нужна помощь в понимании кода обучения с подкреплением
Я пытался решить среду OpenAI MountainCarContinuous-v0 некоторое время, но я застрял. Потратив недели на то, чтобы решить ее самостоятельно, теперь я просто пытаюсь понять чужой код. Вот ссылка, которую человек использовал для решения проблемы...
69 просмотров

Как определить, что среда CartPole решена?
Я просматривал этот учебник и увидел следующий фрагмент кода: # Calculate score to determine when the environment has been solved scores.append(time) mean_score = np.mean(scores[-100:]) if episode % 50 == 0:...
549 просмотров

Обучение с подкреплением — VPG: неверный индекс для скалярной переменной Ошибка индекса
Я пытаюсь запустить алгоритм градиента политики vanilla и визуализировать среду Open AI "CartPole-v1" . Код алгоритма приведен ниже и работает без ошибок. Блокнот Jupyer для этого кода можно найти здесь . en%pylab inline import tensorflow as...
329 просмотров
schedule 26.01.2024

Проблема с раскруткой OpenAI: ImportError: Ошибка загрузки DLL: указанная процедура не найдена
Прохождение серии руководств OpenAi Spinning Up ( https://spinningup.openai.com/en/latest/user/installation.html ). Когда я пытаюсь разбить их шаг python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest...
710 просмотров
schedule 07.06.2022

Пользовательская среда OpenAI Gym: дискретное пространство для наблюдения с реальными значениями
Я хотел бы создать индивидуальную среду тренажерного зала openai с дискретным пространством состояний, но со значениями с плавающей запятой. Если быть более точным, это должен быть диапазон значений с шагом 0,25: 10,0, 10,25, 10,5, 10,75, 11,0, ...,...
1820 просмотров

Как передать список кортежей в качестве области действия в OpenAI Gym?
При создании среды OpenAI Gym с нуля необходимо определить пространство действий. Это делается с их собственными «структурами данных» из пакетов «пробелов». Существует несколько различных типов пространств, таких как Box, Discrete и т. Д. У меня...
873 просмотров
schedule 23.05.2023

rllib использовать настраиваемые зарегистрированные среды
Документация Rllib предоставляет некоторую информацию о том, как создать и обучить настраиваемую среду . Есть некоторая информация о регистрации этой среды, но я предполагаю, что она должна работать иначе, чем регистрация в спортзале . Я...
2165 просмотров
schedule 12.11.2022