Реактивное управление

До сих пор в этой главе речь шла об управляющих решениях, которые требуют наличия определенной модели среды, чтобы на ее основе можно было сформировать либо опорный путь, либо поле потенциалов. Но с этим подходом связаны некоторые сложности. Во-первых, зачастую сложно получить достаточно точные модели, особенно в сложной или удаленной среде, такой как поверхность Марса. Во-вторых, даже в тех случаях, когда есть возможность составить модель с достаточной точностью, вычислительные сложности и погрешности локализации могут привести к тому, что эти методы окажутся практически не применимыми. В определенных обстоятельствах более подходящим становится один из видов рефлексного проекта агента — проект на основе так называемого реактивного управления.
Одним из примеров такого проекта является шестиногий робот, или гексапод, показанный на рис. 25.21, я, который предназначен для ходьбы по пересеченной местности. В целом датчики робота не позволяют формировать модели местности с точностью, достаточной для любого из методов планирования пути, описанных в предыдущем разделе. Кроме того, даже в случае использования достаточно точных датчиков задача планирования пути не разрешима с помощью имеющихся вычислительных средств из-за наличия двенадцати степеней свободы (по две для каждой ноги).
Тем не менее существует возможность определить спецификацию контроллера непосредственно, без использования явной модели среды. (Выше в данной главе такой подход уже был продемонстрирован на примере PD-контроллера, который оказался способным вести сложный манипулятор робота к цели при отсутствии явной модели динамики робота; однако для этого контроллера требовался опорный путь, сформированный с помощью кинематической модели.) Для рассматриваемого примера шагающего робота после выбора подходящего уровня абстракции задача определения закона управления оказалась удивительно простой. В приемлемом законе управления может быть предусмотрено циклическое движение каждой ноги с тем, чтобы эта нога на какой-то момент касалась земли, а в остальное время двигалась в воздухе. Координация действий всех шести ног должна осуществляться так, чтобы три из них (расположенные на противоположных концах) всегда находились на земле для обеспечения физической опоры. Такой принцип управления можно легко запрограммировать, и он себя полностью оправдывает на ровной местности. А на пересеченной местности движению ног вперед могут помешать препятствия. Это затруднение можно преодолеть с помощью исключительно простого правила управления: если движение какой-то ноги вперед блокируется, следует отвести ее немного назад, поднять выше и предпринять еще одну попытку. Созданный в итоге контроллер показан на рис. 25.21, б в виде конечного автомата; он представляет собой рефлексный агент с поддержкой состояния, в котором внутреннее состояние представлено индексом текущего состояния автомата (от s1 до s4).
Практика показала, что разновидности такого простого контроллера, действующего на основе обратной связи, позволяют реализовывать исключительно надежные способы ходьбы, с помощью которых робот свободно маневрирует на пересеченной местности. Очевидно, что в таком контроллере не используется модель, кроме того, для выработки управляющих воздействий не осуществляется алгоритмический вывод и не производится поиск. В процессе эксплуатации подобного контроллера решающую роль в выработке поведения роботом играет обратная связь от среды. Само программное обеспечение робота, отдельно взятое, не определяет, что фактически происходит после того, как робот входит в какую-то среду. Поведение, проявляющееся в результате взаимодействия (простого) контроллера и (сложной) среды, часто называют эмерджентным поведением (т.е. поведением не планируемым, а обусловленным ситуацией). Строго говоря, все роботы, рассматриваемые в этой главе, обнаруживают эмерджентное поведение в связи с тем фактом, что ни одна из используемых в них моделей не является идеальной. Но по традиции этот термин применяется для обозначения лишь таких методов управления, в которых не используются явно заданные модели среды. Кроме того, эмерджентное поведение является характерным для значительной части биологических организмов.
С формальной точки зрения реактивные контроллеры представляют собой одну из форм реализации политики для задач MDP (или, если они имеют внутреннее состояние, для задач POMDP). В главе 17 было описано несколько методов выработки политики на основании модели робота и его среды. В робототехнике большое практическое значение имеет подход, предусматривающий составление подобной политики вручную, поскольку часто невозможно сформулировать точную модель. В главе 21 описаны методы обучения с подкреплением, позволяющие формировать политику на основании опыта. Некоторые из подобных методов (такие как Q-обучение и поиск политики) не требуют модели среды и позволяют создавать высококачественные контроллеры для роботов, но взамен требуют предоставления огромных объемов обучающих данных.







Материалы

Яндекс.Метрика