Сборники тезисов • Информационные и интеллектуальные системы и технологии • Технологии программирования, искусственный интеллект, биоинформатика

Сборник тезисов докладов конгресса молодых ученых. Электронное издание. – СПб: Университет ИТМО, 2016.

Подход для активного обучения контекстных бандитов

УДК: 004.8

Аннотация:

Одной из проблем, которая решается при помощи обучения с подкреплением, является нахождение компромисса между тем использовать известные данные или попытаться получить новую информацию о них (exploration vs exploitation tradeoff). Многие из задач нахождения компромисса можно рассматривать эквивалентными задачи о многоруком бандите: у нас имеется N «бандитов», у каждого из которых имеется функция распределения выигрыша. На каждой итерации мы выбираем одного бандита, исходя из предыдущих знаний о каждом из них, а затем получаем некоторый выигрыш согласно соответствующему распределению. На основе предыдущей истории запросов и выигрышей формируется наши знания о бандитах. Необходимо построить стратегию, максимизирующую математическое ожидание выигрыша. В задаче контекстных бандитов у каждого из бандита есть некий контекст, и при выборе мы учитываем еще и контекст. Подходы активного обучения позволяют решать задачу нахождения максимума функция в n-мерном пространстве. Если предположить, что контексты бандитов лежат в некотором метрическом пространстве, то можно применить методы активного обучения для выбора необходимого бандита.

Авторы:

Москаленко Юрий Владимирович

Руководители:

Фильченков Андрей Александрович

Скачать PDF-файл