Публикации по теме 'reinforcement-learning'


Замерзшее озеро как марковский процесс принятия решений
Зима пришла. Может ли динамическое программирование спасти нас? Это вторая публикация из серии, посвященной обучению с подкреплением. В предыдущем посте мы рассмотрели простую среду k-Armed Bandit и узнали идеи о методах действия и исследованиях. В этом посте мы рассмотрим Frozen-Lake, среду более сложную, чем в предыдущем. Мы будем использовать марковские процессы принятия решений для моделирования этой среды. Затем мы узнаем о функциях и политиках создания ценности, а также о том,..

Решение Unity OTC: решение для эмоционального обучения?
Если вы еще не слышали, Unity проводит испытание AI / Machine Learning под названием «Башня препятствий». Вызов башни лучше всего описать как вертикальный квест для ИИ. Перед разработчиками стоит задача создать ИИ, чтобы подняться на 100 этажей созданной башни. По мере прохождения ИИ уровней, уровни визуально меняются, и появляются новые препятствия, такие как поиск ключей или толкание ящиков. Мое предыдущее сообщение в блоге на внебиржевом рынке содержит дополнительные ссылки на..