Публикации по теме 'q-learning'


Рандомизированное ансамблевое двойное Q-Learning: быстрое обучение без модели
Мотивация Безмодельное обучение с подкреплением . Алгоритмы достигли впечатляющих результатов, и исследователи придумывают новые и лучшие идеи для дальнейшего повышения их эффективности. Но, несмотря на все их преимущества и улучшения, изложенные в недавних статьях, общепризнанно, что алгоритмы без моделей крайне неэффективны с точки зрения данных . Требуются миллионы фреймов или примеров для изучения оптимальных политик и функций точного значения. Таким образом, они не подходят..

Усиление Deep Q Learning для игры в Unity
В этом посте я рассмотрю Deep Q Networks, подход к обучению с подкреплением, который использует нейронные сети для изучения состояний и действий. Проект является частью наностепени Udacity Deep Reinforcement Learning. В рамках этого проекта я рассмотрю следующие темы и покажу, как реализовано Deep Q Learning для реальной игры на Unity: Как устроена сеть Deep Q Learning Network и как она обучается с использованием памяти воспроизведения. Чем сеть Deep Q Learning Network отличается..

Вопросы по теме 'q-learning'

Обновление ценности Q-обучения
Я работаю над управлением питанием устройства с использованием алгоритма Q-обучения. Устройство имеет два режима питания, т. е. бездействие и спящий режим. Когда устройство находится в спящем режиме, запросы на обработку помещаются в очередь....
2256 просмотров

Оптимальное эпсилон (ϵ-жадное) значение
ϵ-жадная политика Я знаю, что алгоритм Q-обучения должен балансировать между исследованием и эксплуатацией . Поскольку я новичок в этой области, я хотел реализовать простую версию поведения исследования/эксплуатации. Optimal epsilon value...
19882 просмотров

Алгоритм обучения Q для крестиков-ноликов
Я не мог понять, как обновить значения Q для игры в крестики-нолики. Я читал все об этом, но я не мог представить, как это сделать. Я читал, что значение Q обновляется в конце игры, но я не понял, есть ли значение Q для каждого действия?
3481 просмотров

Обучение агента pacman с использованием любого алгоритма обучения с учителем
Я создал простую игру pacman (без таблеток силы) и обучил ее с помощью алгоритма Q Learning. Теперь я думаю о том, чтобы обучить его с помощью некоторого контролируемого алгоритма обучения. Я мог бы создать набор данных, собирая информацию о...
251 просмотров

Скорость обучения агента обучения Q
Вопрос о том, как скорость обучения влияет на скорость сходимости и саму сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальной или скорость обучения обязательно должна уменьшаться, чтобы гарантировать сходимость?
7321 просмотров

Частота обновления Q-learning
В Q-обучении из своего текущего состояния агент выполняет действие на каждом дискретном временном шаге, и после выполнения действия агент получает немедленное вознаграждение за доступ к успеху или неудаче выполненного действия. Допустим, мы хотим...
754 просмотров

Обучение с подкреплением Pybrain; измерение состояния
Я работаю над проектом по объединению обучения с подкреплением с симуляцией светофора с использованием пакета Pybrain. Я прочитал руководство и реализовал свои собственные подклассы Environment и Task . Я использую ActionValueNetwork в качестве...
209 просмотров

Подходит ли Deep Q Learning для решения задачи Cartpole?
Я новичок в обучении с подкреплением. Недавно я пытался обучить сеть Deep Q решению задачи CartPole-v0 спортзала OpenAI, где решение означает достижение среднего балла не менее 195,0 за 100 последовательных эпизодов. Я использую двухслойную...
708 просмотров

Q-значения в DQN становятся слишком большими
Я уже проверил этот вопрос и подтвердил, что это не повторяющаяся проблема. Проблема: Я реализовал агент, который использует DQN с TensorFlow для изучения оптимальной политики игры под названием «точки и квадраты». Похоже, что алгоритм...
1910 просмотров

Оптимизация Q-Learning с перекрывающимися состояниями
Я реализую Q-обучение для простой задачи, которая включает перемещение робота в целевую позицию в непрерывной системе координат. Каждый эпизод имеет фиксированную длину, а награды редки: за последний переход эпизода дается одна награда, и награда...
96 просмотров

Автоматическая дифференциация в градиентных сетях политик
Я понимаю обратное распространение в сетях градиентов политик, но не уверен, как работает с библиотеками, которые автоматически дифференцируются. То есть, как они превращают это в проблему контролируемого обучения. Например, код ниже: Y =...
147 просмотров

Почему в книге Саттона по RL нет n-шагового алгоритма Q-обучения?
Я думаю, что я что-то путаю. Я всегда думал, что: - 1-этапный TD в соответствии с политикой = Sarsa - 1-шаговый TD вне политики = Q-обучение Таким образом, я заключаю: - n-этапный TD on-policy = n-шаговый Sarsa - n-шаговый TD вне политики =...
2377 просмотров

Набор действий, зависящих от состояния, в обучении с подкреплением
Как люди справляются с проблемами, когда судебные иски в разных штатах различаются? В моем случае у меня всего около 10 действий, юридические действия не перекрываются, что означает, что в некоторых состояниях одни и те же 3 состояния всегда являются...
1526 просмотров

какими должны быть размеры Q-матрицы в открытой среде для Q-обучения
Я хочу внедрить Q-обучение в Bipedal Walker v2 OpenAI, но после поиска руководств они кажутся всегда ограниченными средами, которые упрощают инициализацию Q-матрицы и матрицы вознаграждения. например:...
334 просмотров

Как реализовать Q-обучение, чтобы приблизиться к оптимальному управлению?
Я заинтересован во внедрении Q-обучения (или какой-либо формы обучения с подкреплением), чтобы найти оптимальный протокол. В настоящее время у меня есть функция, написанная на Python, где я могу принимать протокол или «действие» и «состояние» и...
918 просмотров

Конвергенция Q-обучения на перевернутом маятнике
Здравствуйте, я работаю над полным контролем проблемы с тележкой (перевернутый маятник). Моя цель состоит в том, чтобы система достигла стабильности, что означает, что все состояния (x, xdot, theta и theta) должны сходиться к нулю. Я использую...
181 просмотров

Нужно ли заканчивать эпизоды, когда происходит столкновение в обучении с подкреплением
Я реализовал алгоритм обучения q, в котором агент пытается пройти как можно дальше. Я также использую мгновенные награды и награду за финальный эпизод. Когда агент сталкивается, я даю высокую награду за столкновение в отрицательном значении, и я не...
229 просмотров
schedule 21.04.2023

Странные результаты при игре с DQN с целями
Я пытался реализовать DQN с целевой сетью и получаю действительно странные результаты. Когда я пытаюсь обучить свой DQN с нуля на Cartpole, кажется, что он не обучается, и потери растут экспоненциально. Однако, если я загружаю предварительно...
314 просмотров
schedule 30.10.2023

Qlearning Эпсилон-жадное исследование: исправлен распад Эпсилон X
Я учу агента выбираться из лабиринта, собирая все яблоки на своем пути, с помощью Qlearning. Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и затухать с течением времени. Я не смог найти преимущества или недостатки каждого...
808 просмотров

Критерии конвергенции в Q-обучении
Я экспериментирую с алгоритмом Q-обучения. Я читал из разных источников и понял алгоритм, однако, похоже, нет четких критериев сходимости, которые математически подкреплены. Большинство источников рекомендуют повторение несколько раз (например, N...
2253 просмотров