ПАССИВНОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

Для того чтобы упростить изложение, начнем с описания случая пассивного обучающегося агента, в котором используется представление на основе состояний в полностью наблюдаемой среде. При пассивном обучении стратегия агента п является неизменной; это означает, что в состоянии s он всегда выполняет действие п (s). Цель агента состоит в том, чтобы определить с помощью обучения, насколько успешной является эта стратегия, т.е. определить с помощью обучения функцию полезности lf(s). В этом разделе в качестве примера будет использоваться мир 4x3, представленный в главе 17. На рис. 21.1 для этого мира показаны стратегия и соответствующие полезности. Очевидно, что задача пассивного обучения аналогична задаче оценки стратегии, которая является частью алгоритма итерации по стратегиям, описанного в разделе 17.3. Основное различие состоит в том, что пассивный обучающийся агент не знает модели перехода T(s, a, s 1 ), которая определяет вероятность достижения состояния s 1 из состояния s после выполнения действия а; он также не знает функцию вознаграждения R (s), которая задает вознаграждение для каждого состояния.
Агент выполняет в данной среде ряд попыток, используя свою стратегию п. При осуществлении каждой попытки агент начинает с состояния (1,1) и испытывает некоторую последовательность переходов между состояниями до тех пор, пока не достигнет одного из терминальных состояний, (4,2) или (4,3). В результатах восприятий ему сообщается и текущее состояние, и вознаграждение, полученное в этом состоянии. Типичные попытки могут выглядеть примерно так:
(1,1).. 04->(1, 2 ).. 04-> (1, 3).. 04-> (1,2). .04->(1,3). .04-> (2,3).. 04-ИЗ ,3)-.04->(4/3)+1
(1Д)-.04->(1,2)..04->(1,3)..04->(2,3)..04->(3,3)..04->(3,2)..04->(3,3)..04->(4,3)+1 (1 , 1) -.04-> (2 , 1) - .04-> (3 ,1) -.04-> (3 , 2 ) -.04-> (4 , 2 ) -1
Обратите внимание на то, что результаты восприятия каждого состояния сопровождаются нижним индексом с указанием полученного вознаграждения. Цель состоит в том, чтобы использовать эту информацию о вознаграждении для определения с помощью обучения ожидаемой полезности lf(s), связанной с каждым нетерминальным состоянием s. Определяемая полезность должна представлять собой ожидаемую сумму (обесцениваемых) вознаграждений, полученных, если агент придерживается стратегии к. Как и в уравнении 17.3, это соотношение записывается следующим образом:
Мы будем включать коэффициент обесценивания у во все уравнения, приведенные в данной главе, но для мира 4x3 принято использовать значение у=1.







Материалы

Яндекс.Метрика