ИЗВЛЕЧЕНИЕ ТРЕХМЕРНОЙ ИНФОРМАЦИИ

В данном разделе будет показано, как перейти от двухмерного изображения к трехмерному представлению сцены. Для нас важно перейти именно к стилю рассуждений о сцене в связи с тем, что агент в конечном итоге существует в мире, а не на плоскости изображения, а зрение предназначено для получения возможности взаимодействовать с объектами в том мире, где существует агент. Тем не менее для большинства агентов требуется только ограниченное абстрактное представление некоторых аспектов сцены, а не все подробности. Алгоритмы, используемые при решении задач взаимодействия с окружающим миром, которые были приведены в последних частях данной книги, распространяются на краткие описания объектов, а не на исчерпывающие перечисления каждой трехмерной конечной части поверхности, ограниченной замкнутой кривой.
Вначале в этом разделе рассматривается процесс распознавания объекта, в котором характеристики изображения (такие как края) преобразуются в модели известных объектов (таких как степлеры). Распознавание объекта происходит в три этапа: сегментация сцены с выделением различных объектов, определение позиции и ориентации каждого объекта относительно наблюдателя и определение формы каждого объекта.
Определение позиции и ориентации объекта относительно наблюдателя (так называемой позы объекта) является наиболее важной операцией с точки зрения решения задач манипулирования и навигации. Например, чтобы робот мог передвигаться по полу заводского цеха в условиях ограниченного маневра, он должен знать местонахождение всех препятствий, чтобы иметь возможность спланировать путь, позволяющий избежать столкновения с ними. Если же робот должен выбрать и захватить какой-то объект, то он должен знать расположение этого объекта относительно манипулятора, чтобы выработать подходящую траекторию движения. Действия по манипулированию и навигации обычно осуществляются в рамках заданного контура управления, а сенсорная информация предоставляет обратную связь для модификации движения робота или перемещения манипулятора робота.
Представим позицию и ориентацию в математических терминах. Позиция точки Р в сцене характеризуется тремя числами — координатами {X, Y, Z) точки р в системе координат с началом координат в микроотверстии и с осью Z, проходящей вдоль оптической оси (см. рис. 24.1). В нашем распоряжении имеется перспективная проекция точки на изображении (х, у). Эта проекция определяет луч, проходящий из микроотверстия, на котором расположена точка Р; неизвестным является расстояние. Термин "ориентация" может использоваться в двух описанных ниже смыслах.
1. Ориентация объекта как единого целого. Она может быть задана в терминах трехмерного вращения, связывающего систему координат этого объекта с системой координат камеры-обскуры.
2. Ориентация поверхности объекта в точке Р. Она может быть задана с помощью нормального вектора п, т.е. вектора, задающего направление, перпендикулярное к поверхности. Для представления ориентации поверхности часто используются переменные угол поворота и угол наклона. Углом поворота называется угол между осью z и вектором п, а углом наклона — угол между осью X и проекцией вектора п на плоскость изображения.
По мере перемещения камеры-обскуры по отношению к объекту изменяются и расстояние до объекта, и его ориентация. Сохраняется только форма объекта. Если объект представляет собой куб, он остается таковым и после его перемещения. В геометрии попытки формализовать понятие геометрической формы предпринимались в течение многих столетий; в конечном итоге было сформулировано такое основное понятие, что формой является то, что остается неизменным после применения некоторой группы преобразований, например сочетаний поворотов и переносов. Сложность заключается в том, что нужно найти способ представления глобальной формы, достаточно общий для того, чтобы с его помощью можно было описать широкий перечень объектов реального мира (а не только такие простые формы, как цилиндры, конусы и сферы) и при этом предусмотреть возможность легко восстанавливать информацию о форме из визуальных входных данных. Но гораздо лучше изучена проблема описания локальной формы поверхности. По сути, это может быть выполнено в терминах кривизны — определения того, как изменяется положение нормального вектора по мере передвижения в различных направлениях по этой поверхности. Если поверхность представляет собой плоскость, то положение нормального вектора вообще не изменяется. В случае цилиндрической поверхности при перемещении параллельно оси изменения не происходят, а при перемещении в перпендикулярном направлении вектор, нормальный к поверхности, вращается со скоростью, обратно пропорциональной радиусу цилиндра, и т.д. Все эти явления исследуются в научной области, называемой дифференциальной геометрией.
Форму объекта важно знать при выполнении некоторых задач манипулирования (например, чтобы определить, в каком месте лучше всего захватить данный объект), но наиболее значительную роль форма объекта играет при распознавании объектов. При решении последней задачи наиболее значащими подсказками, позволяющими идентифицировать объекты, определять с помощью методов классификации, что это изображение является примером какого-то класса, встречавшегося ранее, и т.д., служат геометрическая форма наряду с цветом и текстурой.
Фундаментальный вопрос состоит в следующем: "Если дано, что во время создания перспективной проекции все точки в трехмерном мире, расположенные вдоль одного луча, проходящего через микроотверстие, спроектировались на одну и ту же точку в изображении, то как теперь восстановить трехмерную информацию?" В визуальных стимулах, относящихся к числу применимых для этой пели, содержится целый ряд характерных признаков, включая движение, бинокулярные стереоданные, текстуру, затенение и контуры. Каждый из этих характерных признаков позволяет опереться на исходные предположения о физических сценах, чтобы можно было получить (почти) полностью непротиворечивые интерпретации этих сцен. Каждый из указанных характерных признаков рассматривается в пяти приведенных ниже разделах.







Материалы

Яндекс.Метрика