РАСПОЗНАВАНИЕ ОБЪЕКТОВ

Зрение используется для распознавания не только объектов, но и видов деятельности. Люди способны узнавать знакомую походку (издалека замечая своего друга), выражение лица (улыбку, гримасу), жест (например, просьбу приблизиться), действие (прыжок, танец) и т.д. Исследования по распознаванию видов деятельности все еще находятся на этапе своего становления, поэтому в данном разделе мы сосредоточимся на теме распознавания объектов.
Люди, как правило, легко решают задачу распознавания объектов, но практика показала, что эта задача является сложной для компьютеров. Дело в том, что система машинного зрения должна обладать способностью идентифицировать лицо человека, несмотря на изменения освещенности, позы по отношению к видеокамере и выражения лица. Любое из этих изменений вызывает появление широкого перечня различий в значениях яркости пикселов, поэтому метод, предусматривающий простое сравнение пикселов, вряд ли окажется применимым. Если же требуется обеспечить распознавание экземпляров определенной категории, такой как "автомобили", то приходится также учитывать различия внутри самой категории. Как оказалось, значительные трудности возникают даже при попытке решить весьма ограниченную проблему распознавания рукописных цифр в поле для почтового кода на конвертах.
Наиболее подходящую инфраструктуру для изучения проблемы распознавания объектов предоставляют такие научные области, как контролируемое обучение или классификация образов. Системе предъявляют положительные примеры изображений (допустим, "лица" — face) и отрицательные примеры (допустим, "не лица" — поп face) и ставят перед ней задачу определить с помощью обучения функцию, которая позволила бы отнести вновь полученные изображения к одной из двух категорий — face, поп face. Для достижения этой цели подходят все методы, описанные в главах 18 и 20; в частности, для решения проблем распознавания объектов были применены многослойные персептроны, деревья решений, классификаторы по ближайшим соседним элементам и ядерные машины. Но следует отметить, что задача приспособить эти методы для распознавания объектов — далеко не такая уж простая.
Прежде всего необходимо преодолеть сложности, связанные с сегментацией изображения. Любое изображение, как правило, содержит множество объектов, поэтому необходимо вначале разбить его на подмножества пикселов, соответствующих отдельным объектам. А после разбиения изображения на участки можно ввести данные об этих участках или совокупностях участков в классификатор для определения меток объектов. К сожалению, процесс сегментации "снизу вверх" чреват ошибками, поэтому в качестве альтернативного подхода может быть предусмотрен поиск для определения групп объектов "сверху вниз". Это означает, что можно проводить поиск подмножества пикселов, которые можно классифицировать как лицо, и в случае успешного выполнения данного этапа результатом становится успешное обнаружение группы! Но подходы, основанные исключительно на поиске "сверху вниз" (или нисходящем поиске), имеют высокую вычислительную сложность, поскольку в них необходимо исследовать окна изображения различных размеров, находящиеся в разных местах, а также сравнивать их все с данными различных гипотез о наличии объектов. В настоящее время такая нисходящая стратегия используется в большинстве практически применяемых систем распознавания объектов, но подобная ситуация может измениться в результате усовершенствования методов поиска "снизу вверх" (восходящего поиска).
Еще одной причиной затруднений является то, что процесс распознавания должен осуществляться надежно, невзирая на изменения освещенности и позы. Люди способны легко распознавать объекты, несмотря на то, что их внешний вид существенно изменяется, даже если судить по данным о значениях яркости пикселов на изображениях этих объектов. Например, мы всегда способны узнать лицо друга при разных условиях освещения или под разными углами зрения. В качестве еще более простого примера рассмотрим задачу распознавания рукописной цифры 6. Люди способны решить такую задачу независимо от изменения размеров и положения такого объекта на изображении, а также несмотря на небольшие изменения угла поворота3 надписи, изображающей эту цифру.
На данном этапе необходимо сделать одно важное замечание — геометрические трансформации, такие как перенос, масштабирование и поворот, или трансформации яркости изображения, вызванные физическим перемещением источников света, имеют иной характер по сравнению с изменениями внутри категории, например, такими различиями, которыми характеризуются лица разных людей. Очевидно, что единственным способом получения информации о различных типах человеческих лиц или о разных способах написания цифры 4 является обучение. С другой стороны, влияния геометрических и физических трансформаций носят систематический характер, поэтому должна существовать возможность исключить их из рассмотрения на основе продуманного проектирования состава характеристик, используемых для представления обучающих экземпляров.
Практика показала, что одним из весьма эффективных методов обеспечения инвариантности по отношению к геометрическим трансформациям является предварительная обработка рассматриваемого участка изображения и приведение его к стандартной позиции, масштабу и ориентации. Еще один вариант состоит в том, что можно просто игнорировать причинный характер геометрических и физических трансформаций, рассматривая их как дополнительные источники изменчивости изображений, поступающих в классификатор. В таком случае в обучающее множество необходимо включить экземпляры, соответствующие всем этим вариантам, в расчете на то, что классификатор выявит логическим путем данные о соответствующем множестве трансформаций входных данных, что позволит исключить из рассмотрения указанные причины изменения внешнего вида экземпляров.
Теперь перейдем к описанию конкретных алгоритмов распознавания объектов. Для упрощения сосредоточимся на задаче, постановка которой определена в двухмерной системе координат, — и обучающие, и тестовые примеры заданы в форме двухмерных растровых изображений. Очевидно, что данный подход вполне применим в таких областях, как распознавание рукописного текста. Но даже в случае трехмерных объектов может оказаться эффективным подход, предусматривающий использование способа представления этих объектов с помощью многочисленных двухмерных изображений (рис. 24.18) и классификации новых объектов путем сравнения их с хранимыми изображениями (т.е. с некоторыми другими данными, представляющими те же объекты).
Как было описано в предыдущем разделе, для извлечения из изображения информации о трехмерных объектах в сцене могут использоваться многочисленные признаки. Кроме того, многочисленные признаки лежат в основе распознавания объектов, например, тигра можно узнать, заметив оранжевые и черные цвета на его шкуре, обнаружив на ней полосы или определив форму его тела.
Цвет и текстуру можно представить с использованием гистограмм или эмпирических распределений частот. Получив в качестве образца изображение тигра, можно определить, каково процентное соотношение количества пикселов, относящихся к разным цветам. В дальнейшем, после получения экземпляра с неизвестной классификацией, можно провести сравнение гистограммы его цветов с данными о полученных ранее примерах изображений тигра. Для анализа текстуры рассматриваются гистограммы, полученные в результате свертки изображения с фильтрами, имеющими различные ориентации и масштабы, после чего отыскиваются совпадения.
Как оказалось, задача использования формы для распознавания объектов является более сложной. Вообще говоря, существуют два основных подхода: распознавание с учетом яркости, в котором непосредственно используются значения яркости пикселов, и распознавание с учетом характеристик, в котором предусматривается применение данных о пространственном расположении извлеченных из изображения характеристик, таких как края или ключевые точки. После более подробного описания двух этих подходов мы рассмотрим также проблему оценки позы, т.е. проблему определения местонахождения и ориентации объектов в сцене.







Материалы

Яндекс.Метрика