Реактивное управление

До сих пор в этой главе речь шла об управляющих решениях, которые требуют наличия определенной модели среды, чтобы на ее основе можно было сформировать либо опорный путь, либо поле потенциалов. Но с этим подходом связаны некоторые сложности. Во-первых, зачастую сложно получить достаточно точные модели, особенно в сложной или удаленной среде, такой как поверхность Марса. Во-вторых, даже в тех случаях, когда есть возможность составить модель с достаточной точностью, вычислительные сложности и погрешности локализации могут привести к тому, что эти методы окажутся практически не применимыми. В определенных обстоятельствах более подходящим становится один из видов рефлексного проекта агента — проект на основе так называемого реактивного управления.
Одним из примеров такого проекта является шестиногий робот, или гексапод, показанный на рис. 25.21, я, который предназначен для ходьбы по пересеченной местности. В целом датчики робота не позволяют формировать модели местности с точностью, достаточной для любого из методов планирования пути, описанных в предыдущем разделе. Кроме того, даже в случае использования достаточно точных датчиков задача планирования пути не разрешима с помощью имеющихся вычислительных средств из-за наличия двенадцати степеней свободы (по две для каждой ноги).
Тем не менее существует возможность определить спецификацию контроллера непосредственно, без использования явной модели среды. (Выше в данной главе такой подход уже был продемонстрирован на примере PD-контроллера, который оказался способным вести сложный манипулятор робота к цели при отсутствии явной модели динамики робота; однако для этого контроллера требовался опорный путь, сформированный с помощью кинематической модели.) Для рассматриваемого примера шагающего робота после выбора подходящего уровня абстракции задача определения закона управления оказалась удивительно простой. В приемлемом законе управления может быть предусмотрено циклическое движение каждой ноги с тем, чтобы эта нога на какой-то момент касалась земли, а в остальное время двигалась в воздухе. Координация действий всех шести ног должна осуществляться так, чтобы три из них (расположенные на противоположных концах) всегда находились на земле для обеспечения физической опоры. Такой принцип управления можно легко запрограммировать, и он себя полностью оправдывает на ровной местности. А на пересеченной местности движению ног вперед могут помешать препятствия. Это затруднение можно преодолеть с помощью исключительно простого правила управления: если движение какой-то ноги вперед блокируется, следует отвести ее немного назад, поднять выше и предпринять еще одну попытку. Созданный в итоге контроллер показан на рис. 25.21, б в виде конечного автомата; он представляет собой рефлексный агент с поддержкой состояния, в котором внутреннее состояние представлено индексом текущего состояния автомата (от s1 до s4).
Практика показала, что разновидности такого простого контроллера, действующего на основе обратной связи, позволяют реализовывать исключительно надежные способы ходьбы, с помощью которых робот свободно маневрирует на пересеченной местности. Очевидно, что в таком контроллере не используется модель, кроме того, для выработки управляющих воздействий не осуществляется алгоритмический вывод и не производится поиск. В процессе эксплуатации подобного контроллера решающую роль в выработке поведения роботом играет обратная связь от среды. Само программное обеспечение робота, отдельно взятое, не определяет, что фактически происходит после того, как робот входит в какую-то среду. Поведение, проявляющееся в результате взаимодействия (простого) контроллера и (сложной) среды, часто называют эмерджентным поведением (т.е. поведением не планируемым, а обусловленным ситуацией). Строго говоря, все роботы, рассматриваемые в этой главе, обнаруживают эмерджентное поведение в связи с тем фактом, что ни одна из используемых в них моделей не является идеальной. Но по традиции этот термин применяется для обозначения лишь таких методов управления, в которых не используются явно заданные модели среды. Кроме того, эмерджентное поведение является характерным для значительной части биологических организмов.
С формальной точки зрения реактивные контроллеры представляют собой одну из форм реализации политики для задач MDP (или, если они имеют внутреннее состояние, для задач POMDP). В главе 17 было описано несколько методов выработки политики на основании модели робота и его среды. В робототехнике большое практическое значение имеет подход, предусматривающий составление подобной политики вручную, поскольку часто невозможно сформулировать точную модель. В главе 21 описаны методы обучения с подкреплением, позволяющие формировать политику на основании опыта. Некоторые из подобных методов (такие как Q-обучение и поиск политики) не требуют модели среды и позволяют создавать высококачественные контроллеры для роботов, но взамен требуют предоставления огромных объемов обучающих данных.

Материалы

Затенение

Контуры

РАСПОЗНАВАНИЕ ОБЪЕКТОВ

Распознавание с учетом яркости

Распознавание с учетом характеристик

Оценка позы

ИСПОЛЬЗОВАНИЕ СИСТЕМЫ МАШИННОГО ЗРЕНИЯ ДЛЯ МАНИПУЛИРОВАНИЯ И ПЕРЕДВИЖЕНИЯ

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

РОБОТОТЕХНИКА

АППАРАТНОЕ ОБЕСПЕЧЕНИЕ РОБОТОВ

Исполнительные механизмы

ВОСПРИЯТИЕ, ОСУЩЕСТВЛЯЕМОЕ РОБОТАМИ

Локализация

Составление карты

Другие типы восприятия

ПЛАНИРОВАНИЕ ДВИЖЕНИЙ

Пространство конфигураций

Методы декомпозиции ячеек

Методы скелетирования

ПЛАНИРОВАНИЕ ДВИЖЕНИЙ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ

Надежные методы

Динамика и управление

Управление на основе поля потенциалов

Реактивное управление

АРХИТЕКТУРЫ РОБОТОТЕХНИЧЕСКОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ

Трехуровневая архитектура

Робототехнические языки программирования

ПРИКЛАДНЫЕ ОБЛАСТИ

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ФИЛОСОФСКИЕ ОСНОВАНИЯ

СЛАБЫЙ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ: МОГУТ ЛИ МАШИНЫ ДЕЙСТВОВАТЬ ИНТЕЛЛЕКТУАЛЬНО?

Довод, исходящий из неспособности

Возражения, основанные на принципах математики

Довод, исходящий из неформализуемости

СИЛЬНЫЙ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ: МОГУТ ЛИ МАШИНЫ ПО-НАСТОЯЩЕМУ МЫСЛИТЬ?

Проблема разума и тела

Эксперимент "мозг в колбе"

Эксперимент с протезом мозга

Китайская комната

ЭТИЧЕСКИЕ И МОРАЛЬНЫЕ ПОСЛЕДСТВИЯ РАЗРАБОТКИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

НАСТОЯЩЕЕ И БУДУЩЕЕ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

КОМПОНЕНТЫ АГЕНТА

АРХИТЕКТУРЫ АГЕНТОВ

ПЕРСПЕКТИВЫ РАЗВИТИЯ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

МАТЕМАТИЧЕСКИЕ ОСНОВЫ

Изначально сложные и недетерминированные полиномиальные задачи

ВЕКТОРЫ, МАТРИЦЫ И ЛИНЕЙНАЯ АЛГЕБРА

РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ

Разделы

Поцелуй по расчету
Поэма Содди
Задача о сферах
Многомерность
Гость из четвертого измерения
Четырехмерный симплекс
Возможности нового измерения
Эксперимент Цельнера
Геометрия - это интуиция
Ущербность нашего восприятия
Объем - в плоскость
Наш плоский объемный мир
Мебиусиана
Односторонность листа Мебиуса
Топология - из листа Мебиуса
Число Бетти
Хроматический номер
Справа, где сердце
Бутылка Клейна
Мебиус и микромир
Левый и Правый Мебиусы
Эксперимент By Цзянь-сюн
Двухкомпонентная теория нейтрино
Зеркальные двойники
Роль формы
Вселенная искривляется
Тензорный анализ
Теория Вселенной Эйнштейна
Пульс Вселенной
Великолепная пятерка
О божественной пропорции
«Начала» Евклида
Доказательство Эйлера
Символы Шлефли
Гамильтонова линия
Изопиранная задача
Интуиция царицы Дидоны
Как управляется мир
Серьезные игры
Искусство орнамента
Федоровские группы
Игры Эсхера
Симметрии Эсхера
Нефедоровская кристаллография
Мировая гармония
Удавшаяся провокация
«Колючий» ёж Кеплера
Фигура Петри
Теория многогранников
Правильные и почти правильные тела
Песок расширяется!
Кубическая плотная упаковка
Плотность упаковки
Дома на песке
Тайные связи
Музыка сфер
Подкупающая простота
Модели Дончияна
Полезные политопы
Организация пространства
Радость видеть и понимать
Теории Земли
Бейсбольный мяч планеты
Катенаны
Вечный Геометр
Цепь причин и следствий
Счастливый случай
Метод Монте-Карло
Вероятностные методы
Бросаем песчинку
Сходство схем
Задачи распространения тепла
Случайные траектории
Возможности равны
Случай в игре
Игры с таблицей
Новые осложнения
Хуже-лучше
Расшифровка кодов
Роль элемента случайности
Обучение и случайность
Обучение автоматов
«Школьная» схема обучения
Обучение — самообучение
Шаблон поведения
Уметь пользоваться памятью
Опыты И. П. Павлова
Условный рефлекс
Связь между нейронами
Носитель памяти
Механизм образования условного рефлекса
Механизм «вспоминания»
Структура нервной сети
Простой эксперимент
Проблема опознания
Что такое опознание
Зрительные образы
Персептрон
Различаемые образы
Что умеет персептрон
Свойства персептрона
Залог опознания образов
Роль случайности в эволюции
К чему приводят мутации
Естественный отбор
«Безжалостность» законов природы
Приспособление вида
Схема гомеостата
Идея Эшби
Усилитель отбора
Усилитель мыслительных способностей
Схема искусственного отбора
Самонастраивающиеся системы и случайность
Непохожесть систем
Критерий близости к совершенству
Самонастраивающиеся системы
Наладчик сложных систем
Метод компенсации
Как настроить
Устройство автомата
Держим точный размер
Анализ станка-автомата
Обратное воздействие
Способ Гаусса — Зейделя
Анализ настроек
Метод градиента
Метод случайной настройки
Метод случайного поиска
Программа случайного поиска
Схема случайного поиска
Самонастраивающаяся система
Источник неограниченных возможностей

Искусственный интеллект. Современный подход