ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

В этой главе рассматривается вопрос о том, как агент может учиться на своих успехах и неудачах, учитывая полученные вознаграждения и наказания.
ВВЕДЕНИЕ
В главах 18 и 20 рассматривались методы обучения, позволяющие определять функции и вероятностные модели на основе примеров, а в этой главе будет описано, каким образом агенты могут определить в процессе обучения, что делать, особенно если нет учителя, сообщающего агенту, какое действие следует предпринять в тех или иных обстоятельствах.
Например, как известно, агент может обучиться игре в шахматы с помощью контролируемого обучения, в котором ему предъявляются примеры игровых ситуаций наряду с наилучшими ходами для этих ситуаций. Но если нет дружелюбного учителя, предоставляющего готовые примеры, то что может сделать агент? Опробуя случайно выбранные ходы, агент может в конечном итоге составить прогностическую модель своей среды, т.е. предсказать, как будет выглядеть доска после того, как он сделает данный конкретный ход, и даже как, скорее всего, ответит противник в такой ситуации. Но при этом возникает следующая проблема: без какой-либо обратной связи, говорящей о том, какой ход является хорошим и какой плохим, агент не будет иметь оснований для принятия решения о том, какой ход следует сделать. Агент должен знать, что его выигрыш — это благоприятный исход, а проигрыш — неблагоприятный. Обратная связь такого рода называется вознаграждением, или подкреплением. В играх, подобных шахматам, подкрепление дается только в конце игры. В других вариантах среды вознаграждения могут поступать более часто. В настольном теннисе как вознаграждение может рассматриваться каждое выигранное очко, а при обучении новобранцев способам перемещения ползком достижением становится каждое движение вперед. В инфраструктуре для агентов, рассматриваемой в данной главе, вознаграждение считается частью результатов восприятия, но агент должен быть "настроен" на распознавание этой части как вознаграждения, а не просто как еще одного вида сенсорных входных данных. Например, складывается впечатление, что животные настроены на распознавание боли и голода как отрицательных вознаграждений, а удовольствия и приема пищи — как положительных вознаграждений. Проблемы подкрепления тщательно исследовались специалистами в области психологии животных больше 60 лет.
Понятие вознаграждения было впервые представлено в главе 17, где оно использовалось для определения оптимальных стратегий в марковских процессах принятия решений (Markov Decision Process — MDP). Оптимальной является такая стратегия, которая максимизирует ожидаемое суммарное вознаграждение. Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной (или почти оптимальной) стратегии для данной среды. Но хотя агент, рассматриваемый в главе 17, имел полную модель среды и знал функцию вознаграждения, в данной главе предполагается отсутствие априорных знаний и о том и о другом. Представьте себе, что вы играете в новую игру, правил которой не знаете; примерно через сто ходов ваш противник объявляет: "Вы проиграли". В этом состоит вся суть обучения с подкреплением.
Во многих сложных проблемных областях обучение с подкреплением является единственным осуществимым способом, с помощью которого можно провести обучение некоторой программы, чтобы она могла действовать с высокой производительностью. Например, в случае ведения игр для человека является очень трудной задачей предоставление точных и согласованных оценок большого количества позиций, что требуется для определения в процессе обучения функций оценки непосредственно из примеров. Вместо этого программе можно сообщать, когда она выиграла или проиграла, а сама программа может использовать такую информацию для определения с помощью обучения такой функции оценки, которая предоставляла бы достаточно точные оценки вероятности выигрыша из любой конкретной позиции. Аналогичным образом, чрезвычайно трудно запрограммировать агента так, чтобы он научился вести вертолет; но, предоставляя соответствующие отрицательные вознаграждения за столкновение, болтанку или отклонение от заданного курса, можно дать агенту возможность научиться летать на вертолете самостоятельно.
Обучение с подкреплением может рассматриваться как задача, охватывающая всю тематику искусственного интеллекта: агента помещают в какую-то среду и обязывают его обучиться успешно действовать в ней. Поэтому, чтобы объем этой главы не вышел за пределы разумного, в ней будут рассматриваться только простые варианты среды и простые проекты агента. По большей части предполагается, что среда является полностью наблюдаемой, поэтому информация о текущем состоянии поступает с результатами каждого восприятия. С другой стороны, считается, что агент не знает, по каким принципам действует среда или какими являются результаты его действий, поэтому допускается наличие вероятностных результатов действий. В этой главе речь пойдет о трех перечисленных ниже проектах агентов, которые были впервые представлены в главе 2.
• Агент, действующий с учетом полезности, определяет с помощью обучения функцию полезности состояний и использует ее для выбора действий, которые максимизируют ожидаемую полезность результата.
• Агент, действующий по принципу Q-обучения, определяет с помощью обучения функцию "действие—значение", или Q-функцию, получая сведения об ожидаемой полезности выполнения данного конкретного действия в данном конкретном состоянии.
• Рефлексный агент определяет с помощью обучения стратегию, которая непосредственно отображает состояния в действия.
Агент, действующий с учетом полезности, для принятия решений должен также иметь модель среды, поскольку он должен знать, в какие состояния приведут его выполненные им действия. Например, для того чтобы программа игры в нарды могла использовать функцию оценки для нард, она должна иметь информацию о том, каковыми являются допустимые ходы и как они влияют на позицию в игре. Это — единственный способ, позволяющий применить функцию полезности к результирующим состояниям. Агент, действующий по принципу Q-обучения, с другой стороны, может сравнивать значения, характеризующие доступные ему варианты действий, без необходимости знать их результаты, поэтому ему не требуется модель среды. Тем не менее агенты, действующие по принципу Q-обучения, не могут прогнозировать будущую ситуацию, поскольку не имеют информации о том, к чему приведут их действия; это может серьезно ограничить способность таких агентов к обучению, как будет описано ниже.
Изложение материала этой главы начинается в разделе 21.2 с описания пассивного обучения, в котором стратегия агента остается неизменной, а задача состоит в том, чтобы определить с помощью обучения полезности состояний (или пар "состояние-действие"); для этого может также потребоваться определение с помощью обучения модели среды. В разделе 21.3 рассматривается активное обучение, в ходе которого агент должен также определить, что следует делать. Принципиальной проблемой является исследование среды: агент должен проводить в своей среде максимально возможное количество экспериментов, для того чтобы определить, как следует в ней действовать. В разделе 21.4 показано, что агент может использовать индуктивное обучение, чтобы как можно быстрее обучиться на своем опыте. В разделе 21.5 рассматриваются методы определения с помощью обучения непосредственных представлений стратегий в рефлексных агентах. Для освоения материала данной главы крайне важно понимание тематики марковских процессов принятия решений (см. главу 17).







Материалы

Яндекс.Метрика