ИСПОЛЬЗОВАНИЕ СИСТЕМЫ МАШИННОГО ЗРЕНИЯ ДЛЯ МАНИПУЛИРОВАНИЯ И ПЕРЕДВИЖЕНИЯ


Одно из наиболее важных направлений использования систем машинного зрения состоит в получении информации как для манипулирования объектами (определения их местоположения, захвата, изменения их положения в пространстве и т.д.), так и для передвижения без столкновений с препятствиями. Способность использовать зрение для этих целей присуща системам зрения даже самых примитивных животных. Во многих случаях по своему устройству такая система зрения состоит из минимально необходимого набора компонентов; под этим подразумевается, что она извлекает из доступного светового поля только такую информацию, которая требуется животному для организации своего поведения. Вполне возможно, что системы зрения наиболее высокоразвитых животных стали результатом эволюции, которая началась с появления на одном конце тела у самых ранних, примитивных организмов светочувствительного пятна, с помощью которого они устремлялись к свету (или прятались от него). Как было описано в разделе 24.4, в нервной системе мухи существует очень простая система распознавания оптического потока, позволяющая мухе садиться на стены. В классическом исследовании What the Frog's Eye Tells the Frog's Brain [914] сделано следующее замечание в отношении лягушки: "Она умерла бы с голоду, окруженная пищей, если бы эта пища не двигалась. Лягушка выбирает пишу только после определения ее размеров и движения".
Системы машинного зрения используются в "организмах", называемых роботами. Рассмотрим особую разновидность робота — автоматизированное транспортное средство, движущееся по шоссе (рис. 24.22). Вначале проанализируем стоящие перед нами задачи, затем определим, какие алгоритмы машинного зрения позволят нам получить информацию, необходимую для успешного выполнения этих задач. Ниже перечислены задачи, с которыми сталкивается водитель.
1. Управление движением в поперечном направлении. Обеспечение того, чтобы транспортное средство надежно придерживалось своей полосы движения или плавно переходило на другую полосу движения в случае необходимости.
2. Управление движением в продольном направлении. Обеспечение того, чтобы постоянно соблюдалась безопасная дистанция до транспортного средства, идущего впереди.
3. Предотвращение столкновений с препятствиями. Слежение за транспортными средствами на соседних полосах движения и подготовка к маневрам, необходимым для предотвращения столкновения, если водитель одного из них решит перейти на другую полосу движения.
Перед водителем стоит проблема — определить и осуществить подходящие действия по изменению направления движения, ускорению и торможению, позволяющие наилучшим образом выполнить стоящие перед ним задачи.
Что касается управления движением в поперечном направлении, то для этого необходимо постоянно обновлять данные о положении и ориентации автомобиля относительно его полосы движения. Применительно к изображению, показанному на рис. 24.22, для поиска краев, соответствующих сегментам маркировки полосы движения, можно использовать алгоритмы распознавания краев. После этого с данными элементами представления краев можно согласовать гладкие кривые. Параметры этих кривых несут информацию о поперечном положении автомобиля, направлении, в котором он движется относительно своей полосы движения, и о кривизне самой полосы движения. Эта информация, наряду с информацией о динамике автомобиля, заключает в себе все необходимое для системы рулевого управления. Следует также отметить, что от одного видеокадра к другому происходит лишь небольшое изменение в положении проекции полосы движения на изображении, поэтому уже известно, где искать на изображении маркировку полосы движения; например, на данном рисунке достаточно рассмотреть только те участки, которые обозначены параллельными белыми полосками.
А что касается управления движением в продольном направлении, то необходимо знать расстояния до идущих впереди транспортных средств. Для получения такой информации могут использоваться бинокулярные стереоданные или оптический поток. Оба эти подхода могут быть упрощены с использованием ограничений проблемной области, определяемых тем фактом, что вождение происходит на плоской поверхности. В настоящее время автомобили, действующие под управлением систем машинного зрения, в которых используются эти методы, показали свою способность двигаться в течение продолжительных периодов времени на максимальных скоростях, разрешенных на автомагистралях.
Приведенный выше пример решения проблемы вождения позволяет очень четко подчеркнуть одну мысль: для решения конкретной задачи нет необходимости извлекать из изображения всю информацию, которая может быть в принципе получена с его помощью. Не требуется восстанавливать точную форму каждого встречного или попутного автомобиля, решать задачу определения формы на основании текстуры для поверхности травы, растущей вдоль автомагистрали, и т.д. Потребности данной задачи определяют необходимость в получении лишь информации определенных видов, и поэтому можно добиться значительного повышения скорости вычислений и надежности, восстанавливая только эту информацию и в полной мере применяя ограничения проблемной области. Наша цель при обсуждении общих подходов, представленных в предыдущем разделе, состояла в демонстрации того, что они формируют общую теорию, которую можно специализировать в интересах решения конкретных задач.
Хотя на первый взгляд кажется, что люди осуществляют действия по восприятию без каких-либо усилий, для обеспечения восприятия требуется большой объем сложных вычислений. Задача зрения состоит в извлечении информации, необходимой для решения таких задач, как манипулирование, навигация и распознавание объектов.
• Геометрические и физические аспекты процесса формирования изображения
глубоко изучены. Если дано описание трехмерной сцены, можно легко сформировать ее изображение из любой произвольной позиции видеокамеры (это — задача компьютерной графики). Задача организации обратного процесса, в котором происходит переход от изображения к описанию сцены, является более сложной.
• Для извлечения визуальной информации, необходимой для решения задач манипулирования, навигации и распознавания, необходимо создавать промежуточные представления. В ранних алгоритмах обработки изображения для систем машинного зрения предусматривалось извлечение из изображения таких примитивных характеристик, как края и участки.
• В каждом изображении имеется целый ряд признаков, позволяющих получить информацию о конфигурации рассматриваемой трехмерной сцены: движение, стереоданные, текстура, затенение и контуры. Выделение каждого из этих признаков основано на исходных допущениях о физических сценах, позволяющих добиваться почти полностью непротиворечивых интерпретаций.
• Задача распознавания объектов в своей полной постановке является весьма сложной. В данной главе рассматривались подходы к решению этой задачи с учетом яркости и характеристик. Кроме того, в настоящей главе приведен простой алгоритм оценки позы. Существуют и другие возможности.







Материалы

Яндекс.Метрика