БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

Упорные попытки понять, как функционирует зрение человека, предпринимались с самых древних времен. Евклид (около 300 г. до н.э.) в своих трудах писал о естественной перспективе — об отображении, которое связывает с каждой точкой р в трехмерном мире направление луча ОР, соединяющего центр проекции О с точкой Р. Он также был хорошо знаком с понятием параллакса движения. Следующий значительный этап развития математической трактовки перспективной проекции, на этот раз в контексте проекции на плоские поверхности, наступил в XV веке в Италии, в период Возрождения. Создателем первых рисунков, основанных на геометрически правильной проекции трехмерной сцены, принято считать Брунеллески (1413 год). В 1435 году Альберти составил свод правил построения перспективной проекции, ставший источником вдохновения для многих поколений художников, чьи художественные достижения восхищают нас и поныне. Особенно весомый вклад в развитие науки о перспективе (как она называлась в те времена) внесли Леонардо да Винчи и Альбрехт Дюрер. Составленные Леонардо в конце XV столетия описания игры света и тени (светотени), теневых и полутеневых областей затенения, а также воздушной перспективы до сих пор не потеряли своего значения [790].
Хотя знаниями о перспективе владели еще древние греки, в их воззрениях присутствовала забавная путаница, поскольку они неправильно понимали, какую роль играют глаза в процессе зрения. Аристотель считал, что глаза — это устройства, испускающие лучи, что соответствует современным представлениям о работе лазерных дальномеров. Этим ошибочным взглядам положили конец труды арабских ученых X столетия, в частности Альхазена. В дальнейшем началась разработка камер-обскур различных видов. На первых порах они представляли собой комнаты (камера-обскура по латыни — "темная комната"), в которые свет попадал через малое отверстие в одной стене, а на противоположной стене создавалось изображение сцены, происходящей наружи. Безусловно, во всех этих камерах изображение было перевернутым, что вызывало невероятное смущение современников. Ведь если глаз рассматривать как аналогичный такому устройству формирования изображения, как камера-обскура, то почему же мы видим предметы такими, каковы они на самом деле? Эта загадка не давала покоя величайшим умам той эпохи (включая Леонардо). Окончательно решить эту проблему удалось лишь благодаря работам Кеплера и Декарта. Декарт поместил препарат глаза, с задней стенки которого была удалена непрозрачная оболочка, в отверстие оконного ставня. В результате было получено перевернутое изображение, сформировавшееся на куске бумаги, заменившем сетчатку. Хотя изображение на сетчатке глаза действительно перевернуто, такая ситуация не вызывает проблемы, поскольку мозг интерпретирует полученное изображение правильно. Говоря современным языком, для этого достаточно обеспечить правильный доступ к структуре данных.
Очередные крупные успехи в изучении зрения были достигнуты в XIX веке. Благодаря трудам Гельмгольца и Вундта, описанным в главе 1, методика проведения психофизических экспериментов стала строгой научной дисциплиной. А труды Юнга, Максвелла и Гельмгольца привели к созданию трехкомпонентной теории цветоощущения. Стереоскоп, изобретенный Витстоуном [1582], позволил продемонстрировать, что люди получают возможность определять глубину изображения, если на левый и правый глаз поступают немного разные картинки. После того как стало известно о создании стереоскопа, этот прибор быстро завоевал популярность в гостиных и салонах по всей Европе. Возникла новая научная область — фотограмметрия, основанная на принципиально важном понятии бинокулярных стереоданных, согласно которому два изображения сцены, снятые немного с разных точек зрения, несут достаточную информацию для получения трехмерной реконструкции сцены. В дальнейшем были получены важные математические результаты; например, Круппа [861] доказал, что если даны два изображения пяти различных точек одного и того же объекта, то можно реконструировать данные о повороте и переносе камеры с одной позиции в другую, а также о глубине сцены (с точностью до коэффициента масштабирования). Хотя геометрия стереоскопического зрения была известна уже давно, не было ясно, как решают задачу фотограмметрии люди, автоматически согласующие соответствующие точки изображений. Удивительные способности людей решать проблему соответствия были продемонстрированы Юлешем [755], который изобрел стереограмму, состоящую из случайно выбранных точек. На решение проблемы соответствия как в машинном зрении, так и в фотограмметрии в 1970-х и в 1980-х годах были потрачены значительные усилия.
Вторая половина XIX столетия была основным периодом становления области психофизических исследований человеческого зрения. В первой половине XX столетия наиболее значительные результаты исследований в области зрения были получены представителями школы гештальт-психологии, возглавляемой Максом Вертхеймером. Эти ученые были проводниками взглядов, что основными единицами восприятия должны быть законченные формы, а не их компоненты (такие как края), и выдвинули лозунг: "Целое не равно сумме его частей".
Период исследований после Второй мировой войны характеризуется новым всплеском активности. Наиболее значительной была работа Дж.Дж. Гибсона [551], [552], который подчеркнул важность понятий оптического потока, а также градиентов текстуры в оценке таких переменных описания внешней среды, как поворот и наклон поверхности. Гибсон еще раз подчеркнул значимость стимулов и их разнообразия. Например, в [553] указано, что поле оптического потока всегда содержит достаточно информации для определения самодвижения наблюдателя по отношению к его среде. В сообществе специалистов по системам компьютерного зрения основные работы в этой области и в (математически эквивалентной) области выявления структуры по данным о движении проводились главным образом в 1980-х и в 1990-х годах. Наиболее яркими проявлениями этой деятельности стали оригинальные работы [815], [945] и [1526]. Возникавшая на первых порах озабоченность в отношении стабильности структуры, выявленной на основании данных о движении, была полностью развеяна благодаря работе Томази и Канаде [1511], которые показали, что форма может быть восстановлена абсолютно точно благодаря использованию многочисленных кадров и получаемой в результате этого широкой базисной линии.
В [230] описано удивительное устройство системы зрения мухи и показано, что это насекомое обладает остротой временного визуального восприятия, в десять раз лучшей по сравнению с человеком. Это означает, что муха способна смотреть фильм, воспроизводимый с частотой до 300 кадров в секунду, различая при этом отдельные кадры.
Принципиально важным нововведением, представленным в исследованиях, которые проводились в 1990-х годах, было выявление с помощью обучения проективной структуры по данным о движении. Как показано в [452], при таком подходе не требуется калибровка видеокамеры. Это открытие тесно связано с работами, послужившими основой для использования геометрических инвариантов при распознавании объектов, обзор которых приведен в [1104], и с работами по разработке аффинной структуры по данным о движении [816]. В 1990-х годах анализ движения нашел много новых областей применения благодаря значительному увеличению быстродействия и объема памяти компьютеров, а также широкому распространению цифровой видеоаппаратуры. Особенно важное применение нашли методы создания геометрических моделей сцен реального мира, которые предназначены для формирования изображений с помощью средств компьютерной графики; эти работы привели к созданию алгоритмов реконструкции наподобие тех, которые представлены в [364]. В [454] и [626] приведено исчерпывающее описание геометрии множественных представлений.
В области компьютеризированных систем зрения наиболее важными основополагающими работами по логическому выводу формы на основании текстуры были [60] и [1461]. Они были посвящены описанию плоских поверхностей, а для криволинейных поверхностей результаты исчерпывающего анализа приведены в [518] и [973].
В сообществе специалистов в области компьютерных систем зрения проблема логического вывода формы из данных о затенении была впервые исследована Бер-тольдом Хорном [676]. В [678] представлен исчерпывающий обзор основных статей в этой области. В указанном научном направлении было принято принимать целый ряд упрощающих допущений, из которых наиболее важным было игнорирование влияния взаимного освещения. Важность проблемы взаимного освещения была впервые осознана в сообществе специалистов по компьютерной графике, которые стремились точно разрабатывать модели трассировки лучей и диффузного отражения, чтобы учесть наличие взаимного освещения. С критикой основных теоретических и эмпирических подходов в этой области можно ознакомиться в [484].
В области логического вывода информации о форме по данным о контурах самый первый, решающий вклад был сделан Хаффменом [702] и Клоувсом [271], после чего Маккуорт [966] и Сугихара [1473] провели до конца анализ методов, применимых к многогранным объектам. Малик [971] разработал схему разметки для кусочно-гладких криволинейных объектов. В [801] показано, что задача разметки линий для трехгранных сцен является NP-полной.
Для правильной трактовки визуальных эффектов, возникающих в проекциях гладких криволинейных объектов, требуется совместное использование дифференциальной геометрии и теории особенностей. Наилучшим исследованием на эту тему является книга Кёндеринка Solid Shape [814].
Оригинальной работой по распознаванию трехмерных объектов явились тезисы Робертса [1294], опубликованные в Массачусетсском технологическим институте (Massachussets Institute of Technlogies — MIT). Эту работу многие считают первыми тезисами докторской диссертации по машинному зрению; в ней впервые представлено несколько ключевых идей, в том числе касающихся обнаружения краев и согласования на основе моделей. Метод обнаружения краев Кэнни был представлен в [218]. Идея выравнивания, также впервые выдвинутая Робертсом, снова вышла на передний план в 1980-х годах после опубликования работ [711] и [950]. Значительное повышение эффективности методов оценки позы путем выравнивания было достигнуто Олсоном [1156]. Еще одним важным направлением исследований в области распознавания трехмерных объектов явился подход, основанный на идее описания форм в терминах объемных примитивов на основе обобщенных цилиндров, который был предложен Томом Бинфордом [128] и нашел особенно широкое распространение.
Исследования в области машинного зрения, посвященные распознаванию объектов, в основном сосредоточивались на проблемах, возникающих в результате получения проекции трехмерных объектов в виде двухмерных изображений, а в сообществе специалистов по распознаванию образов существовала другая традиция, в которой эта задача рассматривалась как относящаяся к области классификации образов. Этих специалистов в основным интересовали примеры, относящиеся к таким проблемным областям, как оптическое распознавание символов и распознавание рукописных почтовых кодов, в которых основные усилия были направлены на изучение характеристик типичных вариаций искомого класса объектов и отделение этих объектов от объектов других классов. Сравнение таких подходов приведено в [904]. К другим работам по распознаванию объектов относятся исследования по распознаванию лиц [1422] и [1543]. В [98] описан подход на основе контекста формы. В [395] впервые показаны результаты разработки автомобиля с визуальным управлением для автоматического вождения по автомагистралям на высоких скоростях; в [1224] показаны результаты достижения аналогичной производительности с использованием подхода на основе нейронной сети.
Наилучшее и самое полное описание человеческого зрения можно найти в книге Стивена Палмера Vision Science: Photons to Phenomenology [1167]; а книги Дэвида Xa-бела Eye, Brain and Vision [700] и Ирвина Рока Perception [1300] представляют собой краткие введения, в основном посвященные соответственно нейрофизиологии и восприятию.
В настоящее время наиболее всесторонним учебником для специалистов по машинному зрению является книга Дэвида Форсита (David Forsyth) и Джин Понсе (Jean Ponce) Computer Vision: A Modern Approach. Значительно более краткие описания можно найти в [1111] и [1513]. Интерес представляют также два изданных немного раньше, но все еще значимых учебника, в каждом из которых рассматривается ряд специальных тем: Robot Vision [677] и Three-Dimensional Computer Vision [453]. Важную роль в объединении усилий специалистов по машинному зрению и специалистов по более традиционным областям биологического зрения (психофизике и нейробио-логии) в свое время сыграла книга Дэвида Марра Vision [986]. Двумя основными журналами по машинному зрению являются IEEE Transactions on Pattern Analysis and Machine Intelligence и International Journal of Computer Vision. К числу конференций по машинному зрению относятся ICCV (International Conference on Computer Vision), CVPR (Computer Vision and Pattern Recognition) и ECCV (European Conference on Computer Vision).







Материалы

Яндекс.Метрика