Публикации по теме 'multi-armed-bandit'


Многорукие бандиты с ограничением
Я люблю использовать бандитов в онлайн-системах. Их легко понять концептуально, легко реализовать, и они позволяют вам исследовать более широкое поле политики, чем вы могли бы использовать простой A/B-тест. Они отлично работают, когда требуемая интерпретируемость невелика, а окно возможностей для оптимизации непродолжительно и не хватает времени для сбора статистически значимых результатов. Для экс-оптимизации ценообразования для предложения с ограниченным периодом. Конечно, они не..

Проблема многорукого бандита в обучении с подкреплением
Проблема многорукого бандита в обучении с подкреплением В этой статье вы узнаете об обучении с подкреплением, знаменитой проблеме многорукого бандита, ее применении и некоторых стратегиях решения проблемы. Задача о многоруком бандите — очень популярная проблема в обучении с подкреплением. Но эй, что такое обучение с подкреплением? Обучение с подкреплением — это тип алгоритма машинного обучения, который представляет собой алгоритм, основанный на вознаграждении и наказании, где за..