Публикации по теме 'q-learning'
Рандомизированное ансамблевое двойное Q-Learning: быстрое обучение без модели
Мотивация
Безмодельное обучение с подкреплением . Алгоритмы достигли впечатляющих результатов, и исследователи придумывают новые и лучшие идеи для дальнейшего повышения их эффективности. Но, несмотря на все их преимущества и улучшения, изложенные в недавних статьях, общепризнанно, что алгоритмы без моделей крайне неэффективны с точки зрения данных . Требуются миллионы фреймов или примеров для изучения оптимальных политик и функций точного значения. Таким образом, они не подходят..
Усиление Deep Q Learning для игры в Unity
В этом посте я рассмотрю Deep Q Networks, подход к обучению с подкреплением, который использует нейронные сети для изучения состояний и действий. Проект является частью наностепени Udacity Deep Reinforcement Learning.
В рамках этого проекта я рассмотрю следующие темы и покажу, как реализовано Deep Q Learning для реальной игры на Unity:
Как устроена сеть Deep Q Learning Network и как она обучается с использованием памяти воспроизведения. Чем сеть Deep Q Learning Network отличается..
Вопросы по теме 'q-learning'
Обновление ценности Q-обучения
Я работаю над управлением питанием устройства с использованием алгоритма Q-обучения. Устройство имеет два режима питания, т. е. бездействие и спящий режим. Когда устройство находится в спящем режиме, запросы на обработку помещаются в очередь....
2256 просмотров
schedule
24.04.2023
Оптимальное эпсилон (ϵ-жадное) значение
ϵ-жадная политика
Я знаю, что алгоритм Q-обучения должен балансировать между исследованием и эксплуатацией . Поскольку я новичок в этой области, я хотел реализовать простую версию поведения исследования/эксплуатации.
Optimal epsilon value...
19882 просмотров
schedule
14.09.2022
Алгоритм обучения Q для крестиков-ноликов
Я не мог понять, как обновить значения Q для игры в крестики-нолики. Я читал все об этом, но я не мог представить, как это сделать. Я читал, что значение Q обновляется в конце игры, но я не понял, есть ли значение Q для каждого действия?
3481 просмотров
schedule
16.09.2022
Обучение агента pacman с использованием любого алгоритма обучения с учителем
Я создал простую игру pacman (без таблеток силы) и обучил ее с помощью алгоритма Q Learning. Теперь я думаю о том, чтобы обучить его с помощью некоторого контролируемого алгоритма обучения. Я мог бы создать набор данных, собирая информацию о...
251 просмотров
schedule
16.06.2022
Скорость обучения агента обучения Q
Вопрос о том, как скорость обучения влияет на скорость сходимости и саму сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальной или скорость обучения обязательно должна уменьшаться, чтобы гарантировать сходимость?
7321 просмотров
schedule
28.07.2022
Частота обновления Q-learning
В Q-обучении из своего текущего состояния агент выполняет действие на каждом дискретном временном шаге, и после выполнения действия агент получает немедленное вознаграждение за доступ к успеху или неудаче выполненного действия. Допустим, мы хотим...
754 просмотров
schedule
10.03.2022
Обучение с подкреплением Pybrain; измерение состояния
Я работаю над проектом по объединению обучения с подкреплением с симуляцией светофора с использованием пакета Pybrain. Я прочитал руководство и реализовал свои собственные подклассы Environment и Task . Я использую ActionValueNetwork в качестве...
209 просмотров
schedule
22.08.2022
Подходит ли Deep Q Learning для решения задачи Cartpole?
Я новичок в обучении с подкреплением. Недавно я пытался обучить сеть Deep Q решению задачи CartPole-v0 спортзала OpenAI, где решение означает достижение среднего балла не менее 195,0 за 100 последовательных эпизодов.
Я использую двухслойную...
708 просмотров
schedule
12.08.2022
Q-значения в DQN становятся слишком большими
Я уже проверил этот вопрос и подтвердил, что это не повторяющаяся проблема.
Проблема:
Я реализовал агент, который использует DQN с TensorFlow для изучения оптимальной политики игры под названием «точки и квадраты». Похоже, что алгоритм...
1910 просмотров
schedule
20.07.2023
Оптимизация Q-Learning с перекрывающимися состояниями
Я реализую Q-обучение для простой задачи, которая включает перемещение робота в целевую позицию в непрерывной системе координат. Каждый эпизод имеет фиксированную длину, а награды редки: за последний переход эпизода дается одна награда, и награда...
96 просмотров
schedule
01.04.2022
Автоматическая дифференциация в градиентных сетях политик
Я понимаю обратное распространение в сетях градиентов политик, но не уверен, как работает с библиотеками, которые автоматически дифференцируются.
То есть, как они превращают это в проблему контролируемого обучения. Например, код ниже:
Y =...
147 просмотров
schedule
31.03.2022
Почему в книге Саттона по RL нет n-шагового алгоритма Q-обучения?
Я думаю, что я что-то путаю.
Я всегда думал, что: - 1-этапный TD в соответствии с политикой = Sarsa - 1-шаговый TD вне политики = Q-обучение
Таким образом, я заключаю: - n-этапный TD on-policy = n-шаговый Sarsa - n-шаговый TD вне политики =...
2377 просмотров
schedule
29.07.2022
Набор действий, зависящих от состояния, в обучении с подкреплением
Как люди справляются с проблемами, когда судебные иски в разных штатах различаются? В моем случае у меня всего около 10 действий, юридические действия не перекрываются, что означает, что в некоторых состояниях одни и те же 3 состояния всегда являются...
1526 просмотров
schedule
26.01.2023
какими должны быть размеры Q-матрицы в открытой среде для Q-обучения
Я хочу внедрить Q-обучение в Bipedal Walker v2 OpenAI, но после поиска руководств они кажутся всегда ограниченными средами, которые упрощают инициализацию Q-матрицы и матрицы вознаграждения.
например:...
334 просмотров
schedule
26.08.2022
Как реализовать Q-обучение, чтобы приблизиться к оптимальному управлению?
Я заинтересован во внедрении Q-обучения (или какой-либо формы обучения с подкреплением), чтобы найти оптимальный протокол. В настоящее время у меня есть функция, написанная на Python, где я могу принимать протокол или «действие» и «состояние» и...
918 просмотров
schedule
01.02.2024
Конвергенция Q-обучения на перевернутом маятнике
Здравствуйте, я работаю над полным контролем проблемы с тележкой (перевернутый маятник). Моя цель состоит в том, чтобы система достигла стабильности, что означает, что все состояния (x, xdot, theta и theta) должны сходиться к нулю. Я использую...
181 просмотров
schedule
18.09.2023
Нужно ли заканчивать эпизоды, когда происходит столкновение в обучении с подкреплением
Я реализовал алгоритм обучения q, в котором агент пытается пройти как можно дальше. Я также использую мгновенные награды и награду за финальный эпизод. Когда агент сталкивается, я даю высокую награду за столкновение в отрицательном значении, и я не...
229 просмотров
schedule
21.04.2023
Странные результаты при игре с DQN с целями
Я пытался реализовать DQN с целевой сетью и получаю действительно странные результаты.
Когда я пытаюсь обучить свой DQN с нуля на Cartpole, кажется, что он не обучается, и потери растут экспоненциально.
Однако, если я загружаю предварительно...
314 просмотров
schedule
30.10.2023
Qlearning Эпсилон-жадное исследование: исправлен распад Эпсилон X
Я учу агента выбираться из лабиринта, собирая все яблоки на своем пути, с помощью Qlearning.
Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и затухать с течением времени.
Я не смог найти преимущества или недостатки каждого...
808 просмотров
schedule
30.04.2023
Критерии конвергенции в Q-обучении
Я экспериментирую с алгоритмом Q-обучения. Я читал из разных источников и понял алгоритм, однако, похоже, нет четких критериев сходимости, которые математически подкреплены.
Большинство источников рекомендуют повторение несколько раз (например, N...
2253 просмотров
schedule
30.10.2022