ВОСПРИЯТИЕ
В данной главе речь идет о том, как ввести в компьютер исходные, необработанные данные, полученные из реального мира.
Восприятие предоставляет агентам информацию о мире, в котором они обитают. Восприятие осуществляется с помощью датчиков. Датчиком может быть любое устройство, позволяющее зафиксировать состояние какого-то аспекта среды и передать полученные данные в качестве входных в программу агента. Датчик может быть настолько простым, как однобитовый детектор, который лишь определяет, разомкнут или замкнут выключатель, или настолько сложным, как сетчатка человеческого глаза, которая содержит больше ста миллионов фоточувствительных элементов. В данной главе наше внимание будет сосредоточено на зрении, поскольку оно намного превосходит по информативности все остальные чувства, когда приходится сталкиваться с проявлениями физического мира.
В распоряжении искусственных агентов имеется целый ряд сенсорных модальностей. К числу тех из них, которые являются общими и для людей, и для роботов, относятся зрение, слух и осязание. Проблема слухового восприятия, по крайней мере, в той части, которая касается восприятия речи, рассматривалась в разделе 15.6. Осязание, или тактильное восприятие, будет рассматриваться в главе 25, где речь идет о его использовании в сложнейших манипуляциях, выполняемых роботами, а остальная часть настоящей главы будет посвящена зрению. Некоторые роботы способны воспринимать модальности, не доступные людям, не пользующимся специальными приспособлениями, такие как радиоволны, инфракрасные лучи, сигналы глобальной системы навигации и определения положения (Global Positioning System — GPS) и другие беспроводные сигналы. Некоторые роботы осуществляют активное восприятие; это означает, что они посылают такие импульсные сигналы, как радарные или ультразвуковые, и принимают отражение этих импульсов от среды.
Существуют два способа, с помощью которых агент может использовать полученные им результаты восприятия. В подходе, основанном на извлечении характеристик, агенты распознают какое-то небольшое количество характеристик в полученных ими сенсорных входных данных и передают эти данные непосредственно в свою программу агента, которая может вырабатывать команды по осуществлению действий, представляющих собой реакцию на изменение этих характеристик, или применять эти данные в сочетании с другой информацией. По таком принципу действовал агент в мире вампуса, оборудованный пятью датчиками, каждый из которых извлекал информацию об одной однобитовой характеристике. Кроме того, недавно стало известно, что в нервной системе мухи извлекаются данные о характеристиках из оптического потока и эти данные направляются прямо на мускулы, которые помогают мухе управлять своим движением в воздухе, что дает ей возможность быстро реагировать и изменять направление полета в течение 30 миллисекунд.
Альтернативным этому подходу является подход на основе модели, в котором сенсорные стимулы используются для реконструкции модели мира. При этом подходе работа начинается с функции f, которая отображает состояние мира Wна стимулы S, создаваемые этим миром:
S=f(W)
Функция f определена в физике и в оптике, а также достаточно хорошо изучена. Задача выработки стимулов S с использованием функции f и данных о реальном или воображаемом мире W решается в области компьютерной графики. Задача машинного зрения в определенном смысле является обратной задаче компьютерной графики — в ней предпринимается попытка вычислить W с помощью f и S по следующей формуле:
К сожалению, функция f не имеет приемлемой обратной функции. Прежде всего, мы не можем заглянуть за угол, поэтому не имеем возможности восстановить все аспекты мира из полученных зрительных стимулов. Более того, даже наблюдаемая часть мира представляется как чрезвычайно неоднозначная — без дополнительной информации нельзя сказать, содержит ли стимул S изображение игрушечного ящера Годзилла, ломающего шестидесятисантиметровый макет здания, или в нем представлен настоящий монстр, разрушающий здание высотой шестьдесят метров. Некоторые из подобных проблем можно решить, составив распределение вероятностей по мирам, а не пытаясь найти уникальный мир:
P(W) = P(W\S) P(S)
Еще более важным недостатком моделирования такого типа является предпринимаемая в нем попытка решить слишком трудную проблему. Достаточно сказать, что в компьютерной графике может потребоваться несколько часов вычислений для того, чтобы прорисовать единственный кадр кинофильма, притом что в секунду требуется 24 таких кадра; к тому же вычисление функции f 1 гораздо сложнее по сравнению с вычислением f. Очевидно, что такой объем вычислений слишком велик даже для суперкомпьютера, не говоря уже об обычной мухе, если требуется обеспечить реагирование в реальном времени. К счастью, агенту не требуется модель с таким уровнем детализации, который используется в компьютерной графике, где нужно добиться, чтобы построенное изображение стало таким же реальным, как настоящая фотография. Агенту достаточно знать, скрывается ли в кустарнике тигр, а не учитывать все данные о точном местонахождении и ориентации каждого волоска на спине этого тигра.
Основная часть настоящей главы посвящена описанию средств, позволяющих обеспечить распознавание объектов, таких как притаившиеся тигры, и в ней будут показаны способы решения этой задачи без представления данных о самом тигре до мельчайших подробностей. В разделе 24.2 описан процесс формирования изображения и определены некоторые особенности функции f{W). Вначале рассматривается геометрия этого процесса. Будет описано, как свет отражается от объектов во внешнем мире и попадает на точки в плоскости изображения оптического датчика искусственного агента. Геометрия объясняет, почему большой ящер Годзилла, находящийся далеко от нас, кажется таким же, как маленький ящер Годзилла, расположенный намного ближе. После этого рассматривается фотометрия данного процесса, что позволяет понять, как свет в наблюдаемой сцене определяет яркость точек на изображении. Геометрия и фотометрия, вместе взятые, позволяют получить модель того, как объекты во внешнем мире отображаются на двухмерный массив пикселов.
Получив представление о том, как формируются изображения, мы перейдем к изучению способов их обработки. Процесс обработки потока визуальной информации как людьми, так и компьютерами можно разделить на три этапа. На раннем этапе обработки, называемом зрением низкого уровня (раздел 24.3), необработанное изображение сглаживается для устранения шума и извлекаются характеристики двухмерного изображения, в частности данные о краях участков, разделяющих регионы изображения. На этапе визуальной обработки среднего уровня эти края группируются в целях формирования двухмерных областей. А на этапе обеспечения зрения высокого уровня (раздел 24.4) эти двухмерные области распознаются как действительные объекты в реальном мире (раздел 24.5). Мы изучим различные элементы изображения, позволяющие более успешно решать эту задачу, включая признаки движения, стереоданные, текстуру, затенение и контуры. Задача распознавания объектов важна для агентов, действующих в условиях дикой природы, чтобы они могли обнаруживать присутствие тигров, а также важна для промышленных роботов, чтобы они могли отличать гайки от болтов. Наконец, в разделе 24.6 описано, как можно использовать результаты распознавания объектов для выполнения полезных задач, таких как манипулирование объектами и навигация. Средства манипулирования позволяют захватывать и использовать инструменты и другие объекты, а средства навигации дают возможность передвигаться из одного места в другое без столкновений с какими-либо препятствиями. Не упуская из виду эти задачи, можно добиться того, чтобы агент формировал модель только в таком объеме, который позволяет ему успешно достичь своих целей.
В процессе зрения концентрируется свет, рассеянный объектами в сцене, и создается двухмерное изображение на плоскости изображения. Плоскость изображения покрыта светочувствительным материалом — в сетчатке таковым являются молекулы родопсина, на фотографической пленке — галогены серебра, а в цифровой камере — массив элементов с зарядовой связью (Charge-Coupled Device — CCD). Каждый элемент в приборе с зарядовой связью (ПЗС) накапливает заряд, пропорциональный количеству электронов, освобожденных в результате поглощения фотонов за фиксированный период времени. В цифровой камере плоскость изображения представлена в виде прямоугольной решетки, состоящей из нескольких миллионов пикселов. В глазу имеется аналогичный массив элементов, состоящий примерно из 100 миллионов палочек и 5 миллионов колбочек, сгруппированных в гексагональный массив.