Публикации по теме 'multi-armed-bandit'
Многорукие бандиты с ограничением
Я люблю использовать бандитов в онлайн-системах. Их легко понять концептуально, легко реализовать, и они позволяют вам исследовать более широкое поле политики, чем вы могли бы использовать простой A/B-тест. Они отлично работают, когда требуемая интерпретируемость невелика, а окно возможностей для оптимизации непродолжительно и не хватает времени для сбора статистически значимых результатов. Для экс-оптимизации ценообразования для предложения с ограниченным периодом.
Конечно, они не..
Проблема многорукого бандита в обучении с подкреплением
Проблема многорукого бандита в обучении с подкреплением
В этой статье вы узнаете об обучении с подкреплением, знаменитой проблеме многорукого бандита, ее применении и некоторых стратегиях решения проблемы.
Задача о многоруком бандите — очень популярная проблема в обучении с подкреплением. Но эй, что такое обучение с подкреплением?
Обучение с подкреплением — это тип алгоритма машинного обучения, который представляет собой алгоритм, основанный на вознаграждении и наказании, где за..