Статьи по тематике q-learning

Публикации по теме 'q-learning'

Рандомизированное ансамблевое двойное Q-Learning: быстрое обучение без модели

Мотивация Безмодельное обучение с подкреплением . Алгоритмы достигли впечатляющих результатов, и исследователи придумывают новые и лучшие идеи для дальнейшего повышения их эффективности. Но, несмотря на все их преимущества и улучшения, изложенные в недавних статьях, общепризнанно, что алгоритмы без моделей крайне неэффективны с точки зрения данных . Требуются миллионы фреймов или примеров для изучения оптимальных политик и функций точного значения. Таким образом, они не подходят..

Усиление Deep Q Learning для игры в Unity

В этом посте я рассмотрю Deep Q Networks, подход к обучению с подкреплением, который использует нейронные сети для изучения состояний и действий. Проект является частью наностепени Udacity Deep Reinforcement Learning. В рамках этого проекта я рассмотрю следующие темы и покажу, как реализовано Deep Q Learning для реальной игры на Unity: Как устроена сеть Deep Q Learning Network и как она обучается с использованием памяти воспроизведения. Чем сеть Deep Q Learning Network отличается..

Вопросы по теме 'q-learning'

Обновление ценности Q-обучения

Я работаю над управлением питанием устройства с использованием алгоритма Q-обучения. Устройство имеет два режима питания, т. е. бездействие и спящий режим. Когда устройство находится в спящем режиме, запросы на обработку помещаются в очередь....

2256 просмотров

24.04.2023

Оптимальное эпсилон (ϵ-жадное) значение

ϵ-жадная политика Я знаю, что алгоритм Q-обучения должен балансировать между исследованием и эксплуатацией . Поскольку я новичок в этой области, я хотел реализовать простую версию поведения исследования/эксплуатации. Optimal epsilon value...

19882 просмотров

machine-learning reinforcement-learning q-learning

14.09.2022

Алгоритм обучения Q для крестиков-ноликов

Я не мог понять, как обновить значения Q для игры в крестики-нолики. Я читал все об этом, но я не мог представить, как это сделать. Я читал, что значение Q обновляется в конце игры, но я не понял, есть ли значение Q для каждого действия?

3481 просмотров

machine-learning artificial-intelligence tic-tac-toe reinforcement-learning q-learning

16.09.2022

Обучение агента pacman с использованием любого алгоритма обучения с учителем

Я создал простую игру pacman (без таблеток силы) и обучил ее с помощью алгоритма Q Learning. Теперь я думаю о том, чтобы обучить его с помощью некоторого контролируемого алгоритма обучения. Я мог бы создать набор данных, собирая информацию о...

251 просмотров

machine-learning q-learning supervised-learning pacman

16.06.2022

Скорость обучения агента обучения Q

Вопрос о том, как скорость обучения влияет на скорость сходимости и саму сходимость. Если скорость обучения постоянна, будет ли функция Q сходиться к оптимальной или скорость обучения обязательно должна уменьшаться, чтобы гарантировать сходимость?

7321 просмотров

machine-learning reinforcement-learning q-learning

28.07.2022

Частота обновления Q-learning

В Q-обучении из своего текущего состояния агент выполняет действие на каждом дискретном временном шаге, и после выполнения действия агент получает немедленное вознаграждение за доступ к успеху или неудаче выполненного действия. Допустим, мы хотим...

754 просмотров

machine-learning reinforcement-learning q-learning dynamic-programming

10.03.2022

Обучение с подкреплением Pybrain; измерение состояния

Я работаю над проектом по объединению обучения с подкреплением с симуляцией светофора с использованием пакета Pybrain. Я прочитал руководство и реализовал свои собственные подклассы Environment и Task . Я использую ActionValueNetwork в качестве...

209 просмотров

python neural-network reinforcement-learning q-learning pybrain

22.08.2022

Подходит ли Deep Q Learning для решения задачи Cartpole?

Я новичок в обучении с подкреплением. Недавно я пытался обучить сеть Deep Q решению задачи CartPole-v0 спортзала OpenAI, где решение означает достижение среднего балла не менее 195,0 за 100 последовательных эпизодов. Я использую двухслойную...

708 просмотров

neural-network reinforcement-learning q-learning openai-gym

12.08.2022

Q-значения в DQN становятся слишком большими

Я уже проверил этот вопрос и подтвердил, что это не повторяющаяся проблема. Проблема: Я реализовал агент, который использует DQN с TensorFlow для изучения оптимальной политики игры под названием «точки и квадраты». Похоже, что алгоритм...

1910 просмотров

python machine-learning tensorflow reinforcement-learning q-learning

20.07.2023

Оптимизация Q-Learning с перекрывающимися состояниями

Я реализую Q-обучение для простой задачи, которая включает перемещение робота в целевую позицию в непрерывной системе координат. Каждый эпизод имеет фиксированную длину, а награды редки: за последний переход эпизода дается одна награда, и награда...

96 просмотров

machine-learning reinforcement-learning q-learning

01.04.2022

Автоматическая дифференциация в градиентных сетях политик

Я понимаю обратное распространение в сетях градиентов политик, но не уверен, как работает с библиотеками, которые автоматически дифференцируются. То есть, как они превращают это в проблему контролируемого обучения. Например, код ниже: Y =...

147 просмотров

machine-learning neural-network reinforcement-learning q-learning

31.03.2022

Почему в книге Саттона по RL нет n-шагового алгоритма Q-обучения?

Я думаю, что я что-то путаю. Я всегда думал, что: - 1-этапный TD в соответствии с политикой = Sarsa - 1-шаговый TD вне политики = Q-обучение Таким образом, я заключаю: - n-этапный TD on-policy = n-шаговый Sarsa - n-шаговый TD вне политики =...

2377 просмотров

reinforcement-learning q-learning sarsa

29.07.2022

Набор действий, зависящих от состояния, в обучении с подкреплением

Как люди справляются с проблемами, когда судебные иски в разных штатах различаются? В моем случае у меня всего около 10 действий, юридические действия не перекрываются, что означает, что в некоторых состояниях одни и те же 3 состояния всегда являются...

1526 просмотров

machine-learning reinforcement-learning q-learning

26.01.2023

какими должны быть размеры Q-матрицы в открытой среде для Q-обучения

Я хочу внедрить Q-обучение в Bipedal Walker v2 OpenAI, но после поиска руководств они кажутся всегда ограниченными средами, которые упрощают инициализацию Q-матрицы и матрицы вознаграждения. например:...

334 просмотров

python deep-learning reinforcement-learning q-learning openai-gym

26.08.2022

Как реализовать Q-обучение, чтобы приблизиться к оптимальному управлению?

Я заинтересован во внедрении Q-обучения (или какой-либо формы обучения с подкреплением), чтобы найти оптимальный протокол. В настоящее время у меня есть функция, написанная на Python, где я могу принимать протокол или «действие» и «состояние» и...

918 просмотров

python reinforcement-learning q-learning openai-gym

01.02.2024

Конвергенция Q-обучения на перевернутом маятнике

Здравствуйте, я работаю над полным контролем проблемы с тележкой (перевернутый маятник). Моя цель состоит в том, чтобы система достигла стабильности, что означает, что все состояния (x, xdot, theta и theta) должны сходиться к нулю. Я использую...

181 просмотров

reinforcement-learning q-learning convergence reward

18.09.2023

Нужно ли заканчивать эпизоды, когда происходит столкновение в обучении с подкреплением

Я реализовал алгоритм обучения q, в котором агент пытается пройти как можно дальше. Я также использую мгновенные награды и награду за финальный эпизод. Когда агент сталкивается, я даю высокую награду за столкновение в отрицательном значении, и я не...

229 просмотров

reinforcement-learning q-learning

21.04.2023

Странные результаты при игре с DQN с целями

Я пытался реализовать DQN с целевой сетью и получаю действительно странные результаты. Когда я пытаюсь обучить свой DQN с нуля на Cartpole, кажется, что он не обучается, и потери растут экспоненциально. Однако, если я загружаю предварительно...

314 просмотров

reinforcement-learning q-learning

30.10.2023

Qlearning Эпсилон-жадное исследование: исправлен распад Эпсилон X

Я учу агента выбираться из лабиринта, собирая все яблоки на своем пути, с помощью Qlearning. Я читал, что можно оставить фиксированный эпсилон или выбрать эпсилон и затухать с течением времени. Я не смог найти преимущества или недостатки каждого...

808 просмотров

artificial-intelligence q-learning epsilon

30.04.2023

Критерии конвергенции в Q-обучении

Я экспериментирую с алгоритмом Q-обучения. Я читал из разных источников и понял алгоритм, однако, похоже, нет четких критериев сходимости, которые математически подкреплены. Большинство источников рекомендуют повторение несколько раз (например, N...

2253 просмотров

machine-learning artificial-intelligence algorithm reinforcement-learning q-learning

30.10.2022

Публикации по теме 'q-learning'

Рандомизированное ансамблевое двойное Q-Learning: быстрое обучение без модели

Усиление Deep Q Learning для игры в Unity

Вопросы по теме 'q-learning'

Похожие вопросы