ОБУЧЕНИЕ НА ОСНОВЕ НАБЛЮДЕНИЙ

В данной главе рассматриваются агенты, способные усовершенствовать свое поведение благодаря тщательному изучению собственного опыта.
В основе обучения лежит представление о том, что результаты восприятия должны использоваться не только для осуществления действий, но и для повышения способности агента действовать в будущем. Обучение происходит по мере того, как агент наблюдает за своим взаимодействием с миром и собственными процессами принятия решений. Обучение может охватывать широкий спектр действий, начиная от тривиального накопления в памяти результатов полученного опыта, как было показано на примере агента для мира вампуса в главе 10, и заканчивая созданием целых научных теорий, что было успешно продемонстрировано Альбертом Эйнштейном. В этой главе рассматривается индуктивное обучение на основе наблюдений. В частности, в ней описано, как в процессе обучения формируются простые теории в терминах пропозициональной логики. В ней также приведены результаты теоретического анализа, позволяющие понять принципы индуктивного обучения.
ФОРМЫ ОБУЧЕНИЯ
В главе 2 было показано, что проект обучающегося агента может рассматриваться как состоящий из производительного элемента, определяющего, какие действия должны быть выполнены, и обучающего элемента, который модифицирует производительный элемент для того, чтобы он вырабатывал лучшие решения (см. рис. 2.7). Исследователи, работающие в области машинного обучения, предложили целый ряд типов обучающих элементов. Для того чтобы разобраться в их работе, целесообразно рассмотреть, как влияет на их проект тот контекст, в котором они должны функционировать. На проект обучающего элемента влияют три описанных ниже аспекта.
• Компоненты производительного элемента, подлежащие обучению.
• Обратные связи, которые могут применяться для обучения этих компонентов.
• Способы представления, используемые для компонентов.
Проведем анализ каждого из этих аспектов по очереди. В данной книге уже было показано, что существует много способов построения производительного элемента для агента. В главе 2 было описано несколько проектов агентов (см. рис. 2.3-2.6). Ниже перечислены компоненты этих агентов.
1. Средства прямого отображения условий (распространяющихся на текущее состояние) в действия.
2. Средства логического вывода релевантных свойств мира из последовательности результатов восприятия.
3. Информация о том, как развивается мир и какие результаты возможных действий могут быть получены агентом.
4. Информация о полезности, которая показывает, насколько желательными являются те или иные состояния мира.
5. Информация о ценности действий, показывающая желательность действий.
6. Цели, описывающие классы состояний, достижение которых максимизирует полезность для агента.
Обучение каждого из этих компонентов может осуществляться с помощью соответствующей обратной связи. Рассмотрим, например, агента, который учится вождению, чтобы стать таксистом. Каждый раз, когда инструктор кричит "Тормози!", агент должен усвоить очередное правило "условие—действие", позволяющее определить, когда следует тормозить (компонент 1). Рассматривая множество видеоизображений, на которых, как ему сказано, имеются автобусы, он может научиться распознавать автобусы (компонент 2). Осуществляя попытки выполнения действий и наблюдая за их результатами (например, проводя жесткое торможение на мокрой дороге), он может определить путем обучения, каковы результаты его действий (компонент 3). В дальнейшем, перестав получать чаевые от пассажиров, которые почувствовали себя полностью разбитыми во время утомительной поездки, агент может обучить полезный компонент своей общей функции полезности (компонент 4), который будет подсказывать, что пассажиров надо беречь.
Тип обратной связи, доступной для обучения, обычно является наиболее важным фактором, определяющим характер задачи обучения, с которой сталкивается агент. В области машинного обучения, как правило, различаются три случая: контролируемое обучение, неконтролируемое обучение и обучение с подкреплением.
В задаче контролируемого обучения предусматривается изучение некоторой функции на примерах ее входных и выходных данных. Все приведенные выше случаи, касающиеся компонентов 1, 2 и 3, представляют собой примеры задач контролируемого обучения. В случае, который относится к компоненту 1, агент изучает правило "условие-действие", касающееся торможения, т.е. функцию, которая связывает входные состояния с булевым выходом (тормозить или не тормозить). В случае компонента 2 агент изучает функцию, преобразующую входные изображения в булев выход (который показывает, содержит ли изображение автобус). В случае компонента 3 сведения о торможении выражаются в виде функции, которая связывает состояния и действия по торможению, скажем, с длиной тормозного пути в футах. Обратите внимание на то, что в случаях 1 и 2 учитель указывает в примерах правильное выходное значение, а в случае 3 выходное значение должно быть получено непосредственно из результатов восприятия агента. В полностью наблюдаемых вариантах среды всегда соблюдается такое условие, что агент может наблюдать за результатами своих действий и поэтому использовать методы контролируемого обучения, чтобы научиться предсказывать эти результаты. В частично наблюдаемых вариантах среды задача обучения становится более сложной, поскольку непосредственные результаты могут оказаться недоступными для восприятия.
Задача неконтролируемого обучения касается выявления определенных закономерностей во входных данных в тех условиях, когда не задаются конкретные выходные значения. Например, агент-водитель такси может постепенно развить представление о "днях с хорошими условиями дорожного движения" и "днях с плохими условиями дорожного движения", даже не получая обозначенных соответствующими заголовками примеров тех или других дней. Обучающийся агент, полностью остающийся без контроля, не может узнать в процессе обучения, что делать, поскольку он не имеет информации о том, каковым является определение понятия правильного действия или желательного состояния. Мы будем изучать проблему неконтролируемого обучения в основном в контексте систем формирования вероятностных рассуждений (глава 20).
Задача обучения с подкреплением, которая будет рассматриваться в главе 21, является наиболее общей из этих трех категорий. Агент, проходящий обучение с подкреплением, не получает от учителя указаний о том, что делать, а должен обучаться на основе подкрепления1. Например, отсутствие чаевых в конце поездки (или большой штраф за столкновение с идущим впереди автомобилем) будет служить для агента определенным показателем того, что его поведение нежелательно. Задача обучения с подкреплением обычно включает подзадачу обучения тому, как функционирует среда, в которой существует агент.
В определении того, как должен действовать алгоритм обучения, важную роль играет также применяемое представление той информации, которая должна быть освоена в процессе обучения. Любой из компонентов агента можно представить с использованием любой из схем представления, описанных в этой книге. Выше уже было приведено несколько примеров: в программах ведения игр для представления функций полезности применяются полиномы с линейными весами; высказывания в пропозициональной логике и логике первого порядка применимы для представления всех компонентов логического агента; а вероятностные описания, такие как байесовские сети, применяются в компонентах агента, действующего на основе теории решений, которые предназначены для обеспечения вероятностного вывода. Для всех этих средств представления разработаны эффективные алгоритмы обучения. В данной главе рассматриваются методы, относящиеся к пропозициональной логике, в главе 19 описаны методы для логики первого порядка, а в главе 20 — методы для байесовских и нейронных сетей (которые включают линейные полиномы в качестве частного случая).
Последним важным аспектом проектирования обучающихся систем является наличие априорных знаний. Большинство исследований проблем обучения, проводимых в области искусственного интеллекта, компьютерных наук и психологии, касались того случая, в котором агент приступает к обучению, вообще не имея никаких знаний о том, что он пытается изучить. Он имеет доступ только к примерам, полученным на основе собственного опыта. Хотя этот случай представляет собой важный частный случай, его не следует рассматривать как общий случай. Основная часть человеческого обучения проходит в контексте, связанном с наличием большого объема фоновых знаний. Некоторые психологи и лингвисты утверждают, что даже новорожденные младенцы демонстрируют наличие у них знаний о мире. Но, независимо от того, являются ли эти утверждения истинными, нет никакого сомнения в том, что априорные знания могут оказать огромную помощь в обучении. Физик, рассматривающий стопку фотографий, полученных с помощью пузырьковой камеры, может оказаться способным создать теорию, доказывающую существование новой частицы с определенной массой и зарядом, а если та же стопка фотографий будет показана без дополнительных пояснений искусствоведу, то он сможет лишь утверждать, будто этот "художник" относится к какой-то школе абстракционистов или экспрессионистов. В главе 19 будет показано несколько способов, позволяющих упростить обучение с использованием существующих знаний; кроме того, в ней показано, как можно компилировать знания для ускорения процесса принятия решений. В главе 20 описаны способы применения априорных знаний для упрощения изучения вероятностных теорий.







Материалы

Яндекс.Метрика