ИТЕРАЦИЯ ПО СТРАТЕГИЯМ

тимальной стратегией. Поскольку для каждого конечного пространства состояний количество возможных стратегий является конечным и можно показать, что каждая итерация приводит к определению лучшей стратегии, то алгоритм итерации по стратегиям должен всегда завершать свою работу.
Листинг 17.2. Алгоритм итерации по стратегиям для вычисления оптимальной стратегии
function Policy-Iteration(mdp) returns стратегия
inputs: mdp, задача MDP с состояниями S, моделью перехода Т local variables: U, U' , векторы полезностей для состояний из S,
первоначально равные нулю к, вектор стратегий, индексированный по состояниям, первоначально сформированный случайным образом
repeat
U <— Policy-Evaluation(я, U, mdp) unchanged? <— истинное значение for each состояние s in S do
Очевидно, что этап усовершенствования стратегии является несложным, а как реализовать процедуру Policy-Evaluation? Оказалось, что осуществление такого подхода намного проще по сравнению с решением стандартных уравнений Беллмана (а именно это происходит в алгоритме итерации по значениям), поскольку действие, применяемое в каждом состоянии, зафиксировано в соответствии с выбранной стратегией. Стратегия 7Г± определяет действие 7Г± (s), выполняемое в состоянии s на i-й итерации. Это означает, что можно воспользоваться упрощенной версией уравнения Беллмана (17.5), которая связывает полезность состояния s (соответствующую стратегии тг±) с по-лезностями его соседних состояний, следующим образом:
Например, предположим, что 7Г± — это стратегия, показанная на рис. 17.2, а. В таком случае имеет место п± (1,1) = Up, 7ti (1, 2) - Up и т.д., а упрощенные уравнения Беллмана принимают следующий вид:
СМ1,1) = -0.04 + 0.8 C7i(l,2) + 0.1 C7i (1, 1) + 0.1 C7i(2,l) C7i(l,2) = -0.04 + 0.8 C7i(l,3) + 0.2 C7i (1,2)
Важно отметить, что эти уравнения — линейные, поскольку оператор "max" был удален. Для п состояний имеется п линейных уравнений с п неизвестными, которые могут быть решены точно за время О (л3) с помощью стандартных методов линейной алгебры.
Для небольших пространств состояний оценка стратегии с использованием точных методов решения часто является наиболее эффективным подходом, а для больших пространств состояний затраты времени О (л3) могут оказаться чрезмерно большими. К счастью, точная оценка стратегии не требуется. Вместо этого можно выполнить некоторое количество упрощенных этапов итерации по значениям (они являются упрощенными, поскольку стратегия зафиксирована) для получения достаточно хорошей аппроксимации полезности. Упрощенное обновление Беллмана для этого процесса определяется таким соотношением:
и определяемая в нем операция подстановки повторяется к раз для получения следующей оценки полезности. Результирующий алгоритм называется модифицированной итерацией по стратегиям. Он часто оказывается намного более эффективным, чем стандартная итерация по стратегиям или итерация по значениям.
Алгоритмы, описанные до сих пор в данной главе, требуют одновременного обновления полезности или стратегии для всех состояний. Как оказалось, применение такой организации работы не является строго необходимым. В действительности в каждой итерации можно выбирать любое подмножество состояний и применять к этому подмножеству либо тот, либо другой вид обновления (усовершенствование стратегии или упрощенную итерацию по значениям). Такой наиболее общий алгоритм называется асинхронной итерацией по стратегиям. При соблюдении определенных условий выбора исходной стратегии и функции полезности гарантируется сходимость асинхронной итерации по стратегиям к определенной оптимальной стратегии. А то, что мы вправе выбирать для работы с ними любые состояния, означает, что могут быть разработаны гораздо более эффективные эвристические алгоритмы, например, алгоритмы, которые сосредоточиваются на обновлении значений состояний, которые с наибольшей вероятностью будут достигнуты при осуществлении качественной стратегии. Такой подход имеет гораздо больше смысла в реальной жизни — если человек не намеревается попасть на прибрежную полосу, спрыгнув с высокой скалы, то для него нет смысла заниматься точной оценкой стоимости связанных с этим результирующих состояний.
В описании марковских процессов принятия решений, приведенном в разделе 17.1, предполагалось, что среда является полностью наблюдаемой. При использовании этого предположения агент всегда знает, в каком состоянии он находится. Это предположение, в сочетании с предположением о марковости модели перехода, означает, что оптимальная стратегия зависит только от текущего состояния. А если среда является только частично наблюдаемой, то вполне очевидно, что ситуация становится гораздо менее ясной. Агент не всегда точно знает, в каком состоянии находится, поэтому не может выполнить действие к (s), рекомендуемое для этого состояния. Кроме того, полезность состояния s и оптимальное действие в состоянии s зависят не только от s, но и от того, насколько много агент знает, находясь в состоянии s. По этим причинам задачи MDP в частично наблюдаемой среде (Partially Observable MDP — POMDP, читается как "пом-ди-пи") обычно рассматриваются как намного более сложные по сравнению с обычными задачами MDP. Однако невозможно игнорировать необходимость решения задач POMDP, поскольку реальный мир изобилует такими задачами.

Материалы

Обновление гауссовых распределений

Области применения калмановской фильтрации

ДИНАМИЧЕСКИЕ БАЙЕСОВСКИЕ СЕТИ

Процедура создания сетей DBN

Точный вероятностный вывод в сетях DBN

Приближенный вероятностный вывод в сетях DBN

РАСПОЗНАВАНИЕ РЕЧИ

Звуки речи

Слова

Предложения

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ПРИНЯТИЕ ПРОСТЫХ РЕШЕНИЙ

ОСНОВЫ ТЕОРИИ ПОЛЕЗНОСТИ

В начале была Полезность

ФУНКЦИИ ПОЛЕЗНОСТИ

Полезность денег

СУБЪЕКТИВНЫЕ СУЖДЕНИЯ И ПРИСУЩЕЕ ЧЕЛОВЕКУ СВОЙСТВО ОШИБАТЬСЯ

Шкалы полезности и оценка полезности

МНОГОАТРИБУТНЫЕ ФУНКЦИИ ПОЛЕЗНОСТИ

Доминирование

Структура предпочтений и многоатрибутная полезность

СЕТИ ПРИНЯТИЯ РЕШЕНИЙ

Вычисления с помощью сетей принятия решений

СТОИМИСТЬ ИНФОРМАЦИИ

Общая формула

Свойства показателей стоимости информации

ЭКСПЕРТНЫЕ СИСТЕМЫ, ОСНОВАННЫЕ А ИСПОЛЬЗОВАНИИ ТЕОРИИ ПРИНЯТИЯ РЕШЕНИЙ

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ПРИНЯТИЕ СЛОЖНЫХ РЕШЕНИЙ

Оптимальность в задачах последовательного принятия решений

ИТЕРАЦИЯ ПО ЗНАЧЕНИЯМ

Алгоритм итерации по значениям

Сходимость итерации по значениям

ИТЕРАЦИЯ ПО СТРАТЕГИЯМ

МАРКОВСКИЕ ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИЙ В ЧАСТИЧНО НАБЛЮДАЕМЫХ ВАРИАНТАХ СРЕДЫ

АГЕНТЫ, ДЕЙСТВУЮЩИЕ НА ОСНОВЕ ТЕОРИИ РЕШЕНИЙ

ПРИНЯТИЕ РЕШЕНИЙ ПРИ НАЛИЧИИ НЕСКОЛЬКИХ АГЕНТОВ: ТЕОРИЯ ИГР

ПРОЕКТИРОВАНИЕ МЕХАНИЗМА

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

ОБУЧЕНИЕ НА ОСНОВЕ НАБЛЮДЕНИЙ

ИНДУКТИВНОЕ ОБУЧЕНИЕ

ФОРМИРОВАНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ НА ОСНОВЕ ОБУЧЕНИЯ

Выразительность деревьев решений

Индуктивный вывод деревьев решений на основе примеров

Выбор проверок атрибутов

Оценка производительности обучающего алгоритма

Шум и чрезмерно тщательная подгонка

Расширение области применения деревьев решений

ОБУЧЕНИЕ АНСАМБЛЯ

ПРИНЦИПЫ ФУНКЦИОНИРОВАНИЯ АЛГОРИТМОВ ОБУЧЕНИЯ: ТЕОРИЯ ВЫЧИСЛИТЕЛЬНОГО ОБУЧЕНИЯ

Оценка количества необходимых примеров

Разделы

Поцелуй по расчету
Поэма Содди
Задача о сферах
Многомерность
Гость из четвертого измерения
Четырехмерный симплекс
Возможности нового измерения
Эксперимент Цельнера
Геометрия - это интуиция
Ущербность нашего восприятия
Объем - в плоскость
Наш плоский объемный мир
Мебиусиана
Односторонность листа Мебиуса
Топология - из листа Мебиуса
Число Бетти
Хроматический номер
Справа, где сердце
Бутылка Клейна
Мебиус и микромир
Левый и Правый Мебиусы
Эксперимент By Цзянь-сюн
Двухкомпонентная теория нейтрино
Зеркальные двойники
Роль формы
Вселенная искривляется
Тензорный анализ
Теория Вселенной Эйнштейна
Пульс Вселенной
Великолепная пятерка
О божественной пропорции
«Начала» Евклида
Доказательство Эйлера
Символы Шлефли
Гамильтонова линия
Изопиранная задача
Интуиция царицы Дидоны
Как управляется мир
Серьезные игры
Искусство орнамента
Федоровские группы
Игры Эсхера
Симметрии Эсхера
Нефедоровская кристаллография
Мировая гармония
Удавшаяся провокация
«Колючий» ёж Кеплера
Фигура Петри
Теория многогранников
Правильные и почти правильные тела
Песок расширяется!
Кубическая плотная упаковка
Плотность упаковки
Дома на песке
Тайные связи
Музыка сфер
Подкупающая простота
Модели Дончияна
Полезные политопы
Организация пространства
Радость видеть и понимать
Теории Земли
Бейсбольный мяч планеты
Катенаны
Вечный Геометр
Цепь причин и следствий
Счастливый случай
Метод Монте-Карло
Вероятностные методы
Бросаем песчинку
Сходство схем
Задачи распространения тепла
Случайные траектории
Возможности равны
Случай в игре
Игры с таблицей
Новые осложнения
Хуже-лучше
Расшифровка кодов
Роль элемента случайности
Обучение и случайность
Обучение автоматов
«Школьная» схема обучения
Обучение — самообучение
Шаблон поведения
Уметь пользоваться памятью
Опыты И. П. Павлова
Условный рефлекс
Связь между нейронами
Носитель памяти
Механизм образования условного рефлекса
Механизм «вспоминания»
Структура нервной сети
Простой эксперимент
Проблема опознания
Что такое опознание
Зрительные образы
Персептрон
Различаемые образы
Что умеет персептрон
Свойства персептрона
Залог опознания образов
Роль случайности в эволюции
К чему приводят мутации
Естественный отбор
«Безжалостность» законов природы
Приспособление вида
Схема гомеостата
Идея Эшби
Усилитель отбора
Усилитель мыслительных способностей
Схема искусственного отбора
Самонастраивающиеся системы и случайность
Непохожесть систем
Критерий близости к совершенству
Самонастраивающиеся системы
Наладчик сложных систем
Метод компенсации
Как настроить
Устройство автомата
Держим точный размер
Анализ станка-автомата
Обратное воздействие
Способ Гаусса — Зейделя
Анализ настроек
Метод градиента
Метод случайной настройки
Метод случайного поиска
Программа случайного поиска
Схема случайного поиска
Самонастраивающаяся система
Источник неограниченных возможностей

Искусственный интеллект. Современный подход