УПРАЖНЕНИЯ

21.1. d§3 Реализуйте пассивного обучающегося агента, действующего в простой среде, такой как мир 4x3. Для случая первоначально неизвестной модели среды сравните производительность обучения с помощью алгоритмов непосредственной оценки полезности, TD и ADP. Проведите сравнение оптимальной стратегии и некоторых случайно выбранных стратегий. Применительно к какой из них быстрее всего сходятся оценки полезности? Что происходит при увеличении размеров среды? (Опробуйте варианты среды с препятствиями и без препятствий.)
21.2. В главе 17 была определена правильная стратегия для некоторой задачи MDP как стратегия, позволяющая достичь терминального состояния. Покажите, что для пассивного агента ADP возможна такая ситуация, что он найдет с помощью обучения модель перехода, для которой его стратегия п является неправильной, даже если п правильна для истинной задачи MDP; при использовании таких моделей этап определения значения может окончиться неудачей, если у=1. Покажите, что такая проблема не может возникнуть, если этап определения значения применяется к модели, создаваемой с помощью обучения, только в конце каждой попытки.
21.3. Начиная с проекта пассивного агента ADP, модифицируйте его так, чтобы в нем использовался приближенный алгоритм ADP, как описано в настоящей главе. Выполните это задание за два описанных ниже этапа.
а) Реализуйте приоритетную очередь для внесения корректировок в оценки полезностей. После корректировки данных для некоторого состояния все его предшественники также становятся кандидатами на проведение корректировки и должны быть внесены в очередь. Очередь инициализируется с учетом состояния, из которого произошел самый последний переход. Предусмотрите возможность использования только фиксированного количества корректировок, б) Проведите эксперименты с использованием различных эвристик для упорядочения приоритетной очереди, исследуя их влияние на скорость обучения и продолжительность вычислений.
21.4. В методе непосредственной оценки полезности, описанном в разделе 21.2, используются различимые терминальные состояния для обозначения конца каждой попытки. Как можно модифицировать этот метод для применения в вариантах среды с обесцениваемыми вознаграждениями и без терминальных состояний?
21.5. Как можно использовать алгоритм определения значения для вычисления ожидаемых потерь, испытываемых агентом, который применяет заданное множество оценок полезностей и и оцениваемую модель Я, по сравнению с агентом, использующим правильные значения?
21.6. Приспособьте мир пылесоса (см. главу 2) для обучения с подкреплением, включив в него вознаграждения за то, что пылесос собирает каждый фрагмент мусора, отправляется в свой исходный квадрат и отключается. Сделайте этот мир доступным, предоставив агенту соответствующие результаты восприятия. После этого проведите эксперименты с различными агентами, действующими на основе обучения с подкреплением. Является ли функциональная аппроксимация обязательным условием успеха? Какого рода аппроксиматор может применяться в этом приложении?
21.7. (Й) Реализуйте проект агента, исследующего свою среду и действующего на основе обучения с подкреплением, в котором используются непосредственные оценки полезностей. Подготовьте две версии — с табличным представлением неприменением аппроксиматора функции, показанного в уравнении 21.9. Сравните их производительность в трех вариантах среды, описанных ниже.
а) Мир 4x3, описанный в данной главе.
б) Мир 10x10 без препятствий и с вознаграждением +1 в квадрате
(10,10).
в) Мир 10x10 без препятствий и с вознаграждением +1 в квадрате (5,5).
21.8. Запишите уравнения обновления параметров для метода обучения TD со сле-
дующим условием:
и(х,у) =е0 + ех + е2у + Эзл/u-Xg)2 + (у-Уд)2
21.9. Составьте список применимых характеристик для стохастических миров с решетками (обобщений мира 4x3), которые содержат множество препятствий и множество терминальных состояний с вознаграждением -1 или +1.
21.10. Вычислите истинную функцию полезности и наилучшую линейную аппроксимацию в точках х и у (как описано в уравнении 21.9) для перечисленных ниже вариантов среды.
а) Мир 10x10 с единственным терминальным состоянием +1 в квадрате (10,10).
б) Как и в упр. 21.10, а, но с дополнительным терминальным состоянием -1
в квадрате (10,1).
в) Как и в упр. 21.10, б, но с дополнительными препятствиями в 10 квадра-
тах, выбранных случайным образом.
г) Как и в упр. 21.10, б, но с размещением стены, простирающейся от квад-
рата (5,2) до квадрата (5,9).
д) Как и в упр. 21.10, я, но с терминальным состоянием в квадрате (5,5).
Действия представляют собой детерминированные движения в четырех направлениях. В каждом случае сравните результаты с использованием трехмерных графиков. Для каждой среды предложите дополнительные характеристики (кроме х и у), которые позволили бы улучшить эту аппроксимацию, и продемонстрируйте полученные результаты.
21.11. (И) Дополните стандартную среду ведения игры (см. главу 6) для включения в нее сигнала вознаграждения. Поместите в эту среду два агента, действующих на основе обучения с подкреплением (они, безусловно, могут иметь общую программу агента), и вынудите их играть друг против друга. Примените обобщенное правило обновления TD (уравнение 21.11) для обновления функции оценки. Вам может потребоваться вначале применить простую функцию оценки с линейными весами и простую игру, такую как крестики-нолики.
21.12. (й) Реализуйте алгоритмы Reinforce и Pegasus и примените их к миру 4x3, используя выбранное вами семейство стратегий. Прокомментируйте полученные результаты.
21.13. Ш Исследуйте проблему применения идей обучения с подкреплением для моделирования поведения людей и животных.
21.14. Ш Может ли обучение с подкреплением служить подходящей абстрактной моделью для эволюции? Какая связь существует (и существует ли она вообще) между жестко закрепленными сигналами вознаграждения и эволюционной пригодностью?







Материалы

Яндекс.Метрика