Динамика и управление
В разделе 25.2 введено понятие динамического состояния, которое расширяет представление о кинематическом состоянии робота, позволяя моделировать скорости робота. Например, в описании динамического состояния, кроме данных об угле поворота шарнира робота, отражена скорость изменения этого угла. В модели перехода для любого представления динамического состояния учитываются влияния усилий на эту скорость изменения. Подобные модели обычно выражаются с помощью дифференциальных уравнений, которые связывают количество (например, кинематическое состояние) с изменением этого количества во времени (например, скоростью). В принципе, можно было бы выбрать способ планирования движений робота с использованием динамических моделей вместо кинематических моделей, которые рассматривались в предыдущих разделах. Такая методология приводит к достижению превосходных показателей производительности робота, если удается составить нужные планы. Однако динамическое состояние намного сложнее по сравнению с кинематическим пространством, а из-за большого количества измерений задачи планирования движений становятся неразрешимыми для любых роботов, кроме самых простых. По этой причине применяемые на практике робототехнические системы часто основаны на использовании более простых кинематических планировщиков пути.
ОСУЩЕСТВЛЕНИЕ ДВИЖЕНИЙ
Общепринятым методом компенсации ограничений кинематических планов является использование для слежения за роботом отдельного механизма, контроллера. Контроллерами называются устройства, вырабатывающие команды управления роботом в реальном времени с использованием обратной связи от среды для достижения цели управления. Если цель состоит в удержании робота на заранее запланированном пути, то такие контроллеры часто называют опорными контроллерами, а путь называют опорным путем. Контроллеры, оптимизирующие глобальную функцию затрат, называют оптимальными контроллерами. По существу, оптимальная политика для задачи MDP является определением оптимального контроллера.
На первый взгляд задача управления, позволяющая удерживать робот на заранее заданном пути, кажется относительно простой. Но на практике даже в ходе решения этой внешне простой задачи могут встретиться некоторые ловушки. На рис. 25.19, а показано, какие нарушения могут при этом возникать. На данном рисунке демонстрируется путь робота, предпринимающего попытку следовать по кинематическому пути. После возникновения любого отклонения (обусловленного либо шумом, либо ограничениями на те усилия, которые может применять робот) робот прикладывает противодействующее усилие, величина которого пропорциональна этому отклонению. Интуитивные представления говорят о том, что такой подход якобы вполне оправдан, поскольку отклонения должны компенсироваться противодействующим усилием, чтобы робот не отклонялся от своей траектории. Однако, как показано на рис. 25.19, я, действия такого контроллера вызывают довольно интенсивную вибрацию робота. Эта вибрация является результатом естественной инерции манипулятора робота — робот, резко направленный в стороны опорной позиции, проскакивает эту позицию, что приводит к возникновению симметричной погрешности с противоположным знаком. Согласно кривой, приведенной на рис. 25.19, я, такое перерегулирование может продолжаться вдоль всей траектории, поэтому результирующее движение робота далеко от идеального. Очевидно, что нужно предусмотреть лучший способ управления.
Для того чтобы понять, каким должен быть лучший контроллер, опишем формально тот тип контроллера, который допускает перерегулирование. Контроллеры, прикладывающие усилия, обратно пропорциональные наблюдаемой погрешности, называются Р-контроллерами. Буква Р является сокращением от proportional (пропорциональный) и показывает, что фактическое управляющее воздействие пропорционально погрешности позиционирования манипулятора робота. В качестве более формальной постановки допустим, что y{t) — опорный путь, параметризованный временнб/м индексом t. Управляющее воздействие at, выработанное Р-контроллером, имеет следующую форму:
at = К?(у (t)-xt)
где xt — состояние робота во время t; JCP — так называемый коэффициент усиления контроллера, от которого зависит, какое усилие будет прилагать контроллер, компенсируя отклонения между фактическим состоянием xt и желаемым y(t). В данном примере кР=1. На первый взгляд может показаться, что проблему можно устранить, выбрав меньшее значение для кР. Но, к сожалению, дело обстоит иначе. На рис. 25.19, б показана траектория манипулятора робота при КР= . 1, в которой все еще проявляется колебательное поведение. Уменьшение величины коэффициента усиления способствует лишь уменьшению интенсивности колебаний, но не устраняет проблему. В действительности в отсутствие трения Р-контроллер действует в соответствии с законом пружины, поэтому он до бесконечности совершает колебания вокруг заданной целевой точки.
В традиционной науке задачи такого типа принадлежат к области теории управления, которая приобретает всю большую важность для исследователей в области искусственного интеллекта. Исследования в этой области, проводившиеся в течение десятков лет, привели к созданию многих типов контроллеров, намного превосходящих описанный выше контроллер, действующий на основании простого закона управления. В частности, опорный контроллер называется стабильным, если небольшие возмущения приводят к возникновению ограниченной погрешности, связывающей сигнал робота и опорный сигнал. Контроллер называется строго стабильным, если он способен вернуть управляемый им аппарат на опорный путь после воздействия подобных возмущений. Очевидно, что рассматриваемый здесь Р-контроллер только внешне кажется стабильным, но не является строго стабильным, поскольку не способен обеспечить возвращение робота на его опорную траекторию.
Простейший контроллер, позволяющий добиться строгой стабильности в условиях данной задачи, известен под названием PD-контроллера. Буква Р снова является сокращением от proportional (пропорциональный), a D — от derivative (дифференциальный). Для описания PD-контроллеров применяется следующее уравнение:
at = KP(y(t)-xt) + JTD3(y("Xt) (25.3)
Согласно этому уравнению, PD-контроллеры представляют собой Р-контроллеры, дополненные дифференциальным компонентом, который добавляет к значению управляющего воздействия at терм, пропорциональный первой производной от погрешности у{t) -xt по времени. К какому результату приводит добавление такого терма? Вообще говоря, дифференциальный терм гасит колебания в системе, для управления которой он применяется. Чтобы убедиться в этом, рассмотрим ситуацию, в которой погрешность (y(t)-xt) резко изменяется во времени, как было в случае с Р-контроллером, описанным выше. При этом производная такой погрешности прикладывается в направлении, противоположном пропорциональному терму, что приводит к уменьшению общего отклика на возмущение. Однако, если та же погрешность продолжит свое присутствие и не изменится, то производная уменьшится до нуля и при выборе управляющего воздействия будет доминировать пропорциональный терм.
Результаты применения такого PD-контроллера для управления манипулятором робота при использовании в качестве коэффициентов усиления значений КР=. 3 и KD=. 8 показаны на рис. 25.19, в. Очевидно, что в конечном итоге траектория манипулятора стала гораздо более гладкой и на ней внешне не заметны какие-либо колебания. Как показывает этот пример, дифференциальный терм позволяет обеспечить стабильность работы контроллера в тех условиях, когда она недостижима другими способами.
Но, как показывает практика, PD-контроллеры также создают предпосылки отказов. В частности, PD-контроллеры могут оказаться неспособными отрегулировать погрешность до нуля, даже при отсутствии внешних возмущений. Такой вывод не следует из приведенного в этом разделе примера робота, но, как оказалось, иногда для уменьшения погрешности до нуля требуется приложить обратную связь с пропорциональным перерегулированием. Решение этой проблемы заключается в том, что к закону управления нужно добавить третий терм, основанный на результатах интегрирования погрешности по времени вычисляется интеграл погрешности по времени. Под влиянием этого терма корректируется продолжающиеся долгое время отклонения между опорным сигналом и фактическим состоянием. Если, например, xt меньше чем у( t) в течение продолжительного периода времени, то значение этого интеграла возрастает до тех пор, пока результирующее управляющее воздействие at не вызовет уменьшение этой погрешности. Таким образом, интегральные термы гарантируют отсутствие систематических погрешностей в действиях контроллера за счет повышения опасности колебательного поведения. Контроллер, закон управления которого состоит из всех трех термов, называется РШ-контроллером. PID-контроллеры широко используются в промышленности для решения самых различных задач управления.