ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

В этой главе рассматривается вопрос о том, как агент может учиться на своих успехах и неудачах, учитывая полученные вознаграждения и наказания.
ВВЕДЕНИЕ
В главах 18 и 20 рассматривались методы обучения, позволяющие определять функции и вероятностные модели на основе примеров, а в этой главе будет описано, каким образом агенты могут определить в процессе обучения, что делать, особенно если нет учителя, сообщающего агенту, какое действие следует предпринять в тех или иных обстоятельствах.
Например, как известно, агент может обучиться игре в шахматы с помощью контролируемого обучения, в котором ему предъявляются примеры игровых ситуаций наряду с наилучшими ходами для этих ситуаций. Но если нет дружелюбного учителя, предоставляющего готовые примеры, то что может сделать агент? Опробуя случайно выбранные ходы, агент может в конечном итоге составить прогностическую модель своей среды, т.е. предсказать, как будет выглядеть доска после того, как он сделает данный конкретный ход, и даже как, скорее всего, ответит противник в такой ситуации. Но при этом возникает следующая проблема: без какой-либо обратной связи, говорящей о том, какой ход является хорошим и какой плохим, агент не будет иметь оснований для принятия решения о том, какой ход следует сделать. Агент должен знать, что его выигрыш — это благоприятный исход, а проигрыш — неблагоприятный. Обратная связь такого рода называется вознаграждением, или подкреплением. В играх, подобных шахматам, подкрепление дается только в конце игры. В других вариантах среды вознаграждения могут поступать более часто. В настольном теннисе как вознаграждение может рассматриваться каждое выигранное очко, а при обучении новобранцев способам перемещения ползком достижением становится каждое движение вперед. В инфраструктуре для агентов, рассматриваемой в данной главе, вознаграждение считается частью результатов восприятия, но агент должен быть "настроен" на распознавание этой части как вознаграждения, а не просто как еще одного вида сенсорных входных данных. Например, складывается впечатление, что животные настроены на распознавание боли и голода как отрицательных вознаграждений, а удовольствия и приема пищи — как положительных вознаграждений. Проблемы подкрепления тщательно исследовались специалистами в области психологии животных больше 60 лет.
Понятие вознаграждения было впервые представлено в главе 17, где оно использовалось для определения оптимальных стратегий в марковских процессах принятия решений (Markov Decision Process — MDP). Оптимальной является такая стратегия, которая максимизирует ожидаемое суммарное вознаграждение. Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной (или почти оптимальной) стратегии для данной среды. Но хотя агент, рассматриваемый в главе 17, имел полную модель среды и знал функцию вознаграждения, в данной главе предполагается отсутствие априорных знаний и о том и о другом. Представьте себе, что вы играете в новую игру, правил которой не знаете; примерно через сто ходов ваш противник объявляет: "Вы проиграли". В этом состоит вся суть обучения с подкреплением.
Во многих сложных проблемных областях обучение с подкреплением является единственным осуществимым способом, с помощью которого можно провести обучение некоторой программы, чтобы она могла действовать с высокой производительностью. Например, в случае ведения игр для человека является очень трудной задачей предоставление точных и согласованных оценок большого количества позиций, что требуется для определения в процессе обучения функций оценки непосредственно из примеров. Вместо этого программе можно сообщать, когда она выиграла или проиграла, а сама программа может использовать такую информацию для определения с помощью обучения такой функции оценки, которая предоставляла бы достаточно точные оценки вероятности выигрыша из любой конкретной позиции. Аналогичным образом, чрезвычайно трудно запрограммировать агента так, чтобы он научился вести вертолет; но, предоставляя соответствующие отрицательные вознаграждения за столкновение, болтанку или отклонение от заданного курса, можно дать агенту возможность научиться летать на вертолете самостоятельно.
Обучение с подкреплением может рассматриваться как задача, охватывающая всю тематику искусственного интеллекта: агента помещают в какую-то среду и обязывают его обучиться успешно действовать в ней. Поэтому, чтобы объем этой главы не вышел за пределы разумного, в ней будут рассматриваться только простые варианты среды и простые проекты агента. По большей части предполагается, что среда является полностью наблюдаемой, поэтому информация о текущем состоянии поступает с результатами каждого восприятия. С другой стороны, считается, что агент не знает, по каким принципам действует среда или какими являются результаты его действий, поэтому допускается наличие вероятностных результатов действий. В этой главе речь пойдет о трех перечисленных ниже проектах агентов, которые были впервые представлены в главе 2.
• Агент, действующий с учетом полезности, определяет с помощью обучения функцию полезности состояний и использует ее для выбора действий, которые максимизируют ожидаемую полезность результата.
• Агент, действующий по принципу Q-обучения, определяет с помощью обучения функцию "действие—значение", или Q-функцию, получая сведения об ожидаемой полезности выполнения данного конкретного действия в данном конкретном состоянии.
• Рефлексный агент определяет с помощью обучения стратегию, которая непосредственно отображает состояния в действия.
Агент, действующий с учетом полезности, для принятия решений должен также иметь модель среды, поскольку он должен знать, в какие состояния приведут его выполненные им действия. Например, для того чтобы программа игры в нарды могла использовать функцию оценки для нард, она должна иметь информацию о том, каковыми являются допустимые ходы и как они влияют на позицию в игре. Это — единственный способ, позволяющий применить функцию полезности к результирующим состояниям. Агент, действующий по принципу Q-обучения, с другой стороны, может сравнивать значения, характеризующие доступные ему варианты действий, без необходимости знать их результаты, поэтому ему не требуется модель среды. Тем не менее агенты, действующие по принципу Q-обучения, не могут прогнозировать будущую ситуацию, поскольку не имеют информации о том, к чему приведут их действия; это может серьезно ограничить способность таких агентов к обучению, как будет описано ниже.
Изложение материала этой главы начинается в разделе 21.2 с описания пассивного обучения, в котором стратегия агента остается неизменной, а задача состоит в том, чтобы определить с помощью обучения полезности состояний (или пар "состояние-действие"); для этого может также потребоваться определение с помощью обучения модели среды. В разделе 21.3 рассматривается активное обучение, в ходе которого агент должен также определить, что следует делать. Принципиальной проблемой является исследование среды: агент должен проводить в своей среде максимально возможное количество экспериментов, для того чтобы определить, как следует в ней действовать. В разделе 21.4 показано, что агент может использовать индуктивное обучение, чтобы как можно быстрее обучиться на своем опыте. В разделе 21.5 рассматриваются методы определения с помощью обучения непосредственных представлений стратегий в рефлексных агентах. Для освоения материала данной главы крайне важно понимание тематики марковских процессов принятия решений (см. главу 17).

Материалы

Обучение списков решений

Обсуждение полученных результатов

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ПРИМЕНЕНИЕ ЗНАНИЙ В ОБУЧЕНИИ

Примеры и гипотезы

Поиск текущей наилучшей гипотезы

Применение знаний в обучении

Поиск на основе оценки наименьшего вклада

ПРИМЕНЕНИЕ ЗНАНИЙ В ОБУЧЕНИИ

Некоторые простые примеры

ОБУЧЕНИЕ НА ОСНОВЕ ОБЪЯСНЕНИЯ

Извлечение общих правил из примеров

Повышение эффективности правила

Определение пространства гипотез

Обучение и использование информации о релевантности

ИНДУКТИВНОЕ ЛОГИЧЕСКОЕ ПРОГРАММИРОВАНИЕ

Нисходящие методы индуктивного обучения

Индуктивное обучение с помощью обратной дедукции

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ

ОБУЧЕНИЕ С ПОМОЩЬЮ ПОЛНЫХ ДАННЫХ

Наивные байесовские модели

Обучение байесовским параметрам

Определение путем обучения структур байесовских сетей

ОБУЧЕНИЕ С ПОМОЩЬЮ СКРЫТЫХ ПЕРЕМЕННЫХ: АЛГОРИТМ ЕМ

Неконтролируемая кластеризация: определение в процессе обучения смешанных гауссовых распределений

Обучение байесовских сетей со скрытыми переменными

Обучение скрытых марковских моделей

Общая форма алгоритма ЕМ

Определение с помощью обучения структур байесовских сетей со скрытыми переменными

ОБУЧЕНИЕ НА ОСНОВЕ ЭКЗЕМПЛЯРА

Ядерные модели

НЕЙРОННЫЕ СЕТИ

Структуры сетей

Однослойные нейронные сети с прямым распространением (персептроны)

Многослойные нейронные сети с прямым распространением

ЯДЕРНЫЕ МАШИНЫ

ПРАКТИЧЕСКИЙ ПРИМЕР: РАСПОЗНАВАНИЕ РУКОПИСНЫХ ЦИФР

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

ПАССИВНОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

Непосредственная оценка полезности

Адаптивное динамическое программирование

АКТИВНОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

ИССЛЕДОВАНИЕ СРЕДЫ И N-РУКИЕ БАНДИТЫ

ОБОБЩЕНИЕ В ОБУЧЕНИИ С ПОДКРЕПЛЕНИЕМ

Приложения методов обучения к ведению игр

Применение к управлению роботами

Разделы

Поцелуй по расчету
Поэма Содди
Задача о сферах
Многомерность
Гость из четвертого измерения
Четырехмерный симплекс
Возможности нового измерения
Эксперимент Цельнера
Геометрия - это интуиция
Ущербность нашего восприятия
Объем - в плоскость
Наш плоский объемный мир
Мебиусиана
Односторонность листа Мебиуса
Топология - из листа Мебиуса
Число Бетти
Хроматический номер
Справа, где сердце
Бутылка Клейна
Мебиус и микромир
Левый и Правый Мебиусы
Эксперимент By Цзянь-сюн
Двухкомпонентная теория нейтрино
Зеркальные двойники
Роль формы
Вселенная искривляется
Тензорный анализ
Теория Вселенной Эйнштейна
Пульс Вселенной
Великолепная пятерка
О божественной пропорции
«Начала» Евклида
Доказательство Эйлера
Символы Шлефли
Гамильтонова линия
Изопиранная задача
Интуиция царицы Дидоны
Как управляется мир
Серьезные игры
Искусство орнамента
Федоровские группы
Игры Эсхера
Симметрии Эсхера
Нефедоровская кристаллография
Мировая гармония
Удавшаяся провокация
«Колючий» ёж Кеплера
Фигура Петри
Теория многогранников
Правильные и почти правильные тела
Песок расширяется!
Кубическая плотная упаковка
Плотность упаковки
Дома на песке
Тайные связи
Музыка сфер
Подкупающая простота
Модели Дончияна
Полезные политопы
Организация пространства
Радость видеть и понимать
Теории Земли
Бейсбольный мяч планеты
Катенаны
Вечный Геометр
Цепь причин и следствий
Счастливый случай
Метод Монте-Карло
Вероятностные методы
Бросаем песчинку
Сходство схем
Задачи распространения тепла
Случайные траектории
Возможности равны
Случай в игре
Игры с таблицей
Новые осложнения
Хуже-лучше
Расшифровка кодов
Роль элемента случайности
Обучение и случайность
Обучение автоматов
«Школьная» схема обучения
Обучение — самообучение
Шаблон поведения
Уметь пользоваться памятью
Опыты И. П. Павлова
Условный рефлекс
Связь между нейронами
Носитель памяти
Механизм образования условного рефлекса
Механизм «вспоминания»
Структура нервной сети
Простой эксперимент
Проблема опознания
Что такое опознание
Зрительные образы
Персептрон
Различаемые образы
Что умеет персептрон
Свойства персептрона
Залог опознания образов
Роль случайности в эволюции
К чему приводят мутации
Естественный отбор
«Безжалостность» законов природы
Приспособление вида
Схема гомеостата
Идея Эшби
Усилитель отбора
Усилитель мыслительных способностей
Схема искусственного отбора
Самонастраивающиеся системы и случайность
Непохожесть систем
Критерий близости к совершенству
Самонастраивающиеся системы
Наладчик сложных систем
Метод компенсации
Как настроить
Устройство автомата
Держим точный размер
Анализ станка-автомата
Обратное воздействие
Способ Гаусса — Зейделя
Анализ настроек
Метод градиента
Метод случайной настройки
Метод случайного поиска
Программа случайного поиска
Схема случайного поиска
Самонастраивающаяся система
Источник неограниченных возможностей

Искусственный интеллект. Современный подход