ВОСПРИЯТИЕ

В данной главе речь идет о том, как ввести в компьютер исходные, необработанные данные, полученные из реального мира.
Восприятие предоставляет агентам информацию о мире, в котором они обитают. Восприятие осуществляется с помощью датчиков. Датчиком может быть любое устройство, позволяющее зафиксировать состояние какого-то аспекта среды и передать полученные данные в качестве входных в программу агента. Датчик может быть настолько простым, как однобитовый детектор, который лишь определяет, разомкнут или замкнут выключатель, или настолько сложным, как сетчатка человеческого глаза, которая содержит больше ста миллионов фоточувствительных элементов. В данной главе наше внимание будет сосредоточено на зрении, поскольку оно намного превосходит по информативности все остальные чувства, когда приходится сталкиваться с проявлениями физического мира.
В распоряжении искусственных агентов имеется целый ряд сенсорных модальностей. К числу тех из них, которые являются общими и для людей, и для роботов, относятся зрение, слух и осязание. Проблема слухового восприятия, по крайней мере, в той части, которая касается восприятия речи, рассматривалась в разделе 15.6. Осязание, или тактильное восприятие, будет рассматриваться в главе 25, где речь идет о его использовании в сложнейших манипуляциях, выполняемых роботами, а остальная часть настоящей главы будет посвящена зрению. Некоторые роботы способны воспринимать модальности, не доступные людям, не пользующимся специальными приспособлениями, такие как радиоволны, инфракрасные лучи, сигналы глобальной системы навигации и определения положения (Global Positioning System — GPS) и другие беспроводные сигналы. Некоторые роботы осуществляют активное восприятие; это означает, что они посылают такие импульсные сигналы, как радарные или ультразвуковые, и принимают отражение этих импульсов от среды.
Существуют два способа, с помощью которых агент может использовать полученные им результаты восприятия. В подходе, основанном на извлечении характеристик, агенты распознают какое-то небольшое количество характеристик в полученных ими сенсорных входных данных и передают эти данные непосредственно в свою программу агента, которая может вырабатывать команды по осуществлению действий, представляющих собой реакцию на изменение этих характеристик, или применять эти данные в сочетании с другой информацией. По таком принципу действовал агент в мире вампуса, оборудованный пятью датчиками, каждый из которых извлекал информацию об одной однобитовой характеристике. Кроме того, недавно стало известно, что в нервной системе мухи извлекаются данные о характеристиках из оптического потока и эти данные направляются прямо на мускулы, которые помогают мухе управлять своим движением в воздухе, что дает ей возможность быстро реагировать и изменять направление полета в течение 30 миллисекунд.
Альтернативным этому подходу является подход на основе модели, в котором сенсорные стимулы используются для реконструкции модели мира. При этом подходе работа начинается с функции f, которая отображает состояние мира Wна стимулы S, создаваемые этим миром:
S=f(W)
Функция f определена в физике и в оптике, а также достаточно хорошо изучена. Задача выработки стимулов S с использованием функции f и данных о реальном или воображаемом мире W решается в области компьютерной графики. Задача машинного зрения в определенном смысле является обратной задаче компьютерной графики — в ней предпринимается попытка вычислить W с помощью f и S по следующей формуле:
К сожалению, функция f не имеет приемлемой обратной функции. Прежде всего, мы не можем заглянуть за угол, поэтому не имеем возможности восстановить все аспекты мира из полученных зрительных стимулов. Более того, даже наблюдаемая часть мира представляется как чрезвычайно неоднозначная — без дополнительной информации нельзя сказать, содержит ли стимул S изображение игрушечного ящера Годзилла, ломающего шестидесятисантиметровый макет здания, или в нем представлен настоящий монстр, разрушающий здание высотой шестьдесят метров. Некоторые из подобных проблем можно решить, составив распределение вероятностей по мирам, а не пытаясь найти уникальный мир:
P(W) = P(W\S) P(S)
Еще более важным недостатком моделирования такого типа является предпринимаемая в нем попытка решить слишком трудную проблему. Достаточно сказать, что в компьютерной графике может потребоваться несколько часов вычислений для того, чтобы прорисовать единственный кадр кинофильма, притом что в секунду требуется 24 таких кадра; к тому же вычисление функции f 1 гораздо сложнее по сравнению с вычислением f. Очевидно, что такой объем вычислений слишком велик даже для суперкомпьютера, не говоря уже об обычной мухе, если требуется обеспечить реагирование в реальном времени. К счастью, агенту не требуется модель с таким уровнем детализации, который используется в компьютерной графике, где нужно добиться, чтобы построенное изображение стало таким же реальным, как настоящая фотография. Агенту достаточно знать, скрывается ли в кустарнике тигр, а не учитывать все данные о точном местонахождении и ориентации каждого волоска на спине этого тигра.
Основная часть настоящей главы посвящена описанию средств, позволяющих обеспечить распознавание объектов, таких как притаившиеся тигры, и в ней будут показаны способы решения этой задачи без представления данных о самом тигре до мельчайших подробностей. В разделе 24.2 описан процесс формирования изображения и определены некоторые особенности функции f{W). Вначале рассматривается геометрия этого процесса. Будет описано, как свет отражается от объектов во внешнем мире и попадает на точки в плоскости изображения оптического датчика искусственного агента. Геометрия объясняет, почему большой ящер Годзилла, находящийся далеко от нас, кажется таким же, как маленький ящер Годзилла, расположенный намного ближе. После этого рассматривается фотометрия данного процесса, что позволяет понять, как свет в наблюдаемой сцене определяет яркость точек на изображении. Геометрия и фотометрия, вместе взятые, позволяют получить модель того, как объекты во внешнем мире отображаются на двухмерный массив пикселов.
Получив представление о том, как формируются изображения, мы перейдем к изучению способов их обработки. Процесс обработки потока визуальной информации как людьми, так и компьютерами можно разделить на три этапа. На раннем этапе обработки, называемом зрением низкого уровня (раздел 24.3), необработанное изображение сглаживается для устранения шума и извлекаются характеристики двухмерного изображения, в частности данные о краях участков, разделяющих регионы изображения. На этапе визуальной обработки среднего уровня эти края группируются в целях формирования двухмерных областей. А на этапе обеспечения зрения высокого уровня (раздел 24.4) эти двухмерные области распознаются как действительные объекты в реальном мире (раздел 24.5). Мы изучим различные элементы изображения, позволяющие более успешно решать эту задачу, включая признаки движения, стереоданные, текстуру, затенение и контуры. Задача распознавания объектов важна для агентов, действующих в условиях дикой природы, чтобы они могли обнаруживать присутствие тигров, а также важна для промышленных роботов, чтобы они могли отличать гайки от болтов. Наконец, в разделе 24.6 описано, как можно использовать результаты распознавания объектов для выполнения полезных задач, таких как манипулирование объектами и навигация. Средства манипулирования позволяют захватывать и использовать инструменты и другие объекты, а средства навигации дают возможность передвигаться из одного места в другое без столкновений с какими-либо препятствиями. Не упуская из виду эти задачи, можно добиться того, чтобы агент формировал модель только в таком объеме, который позволяет ему успешно достичь своих целей.
В процессе зрения концентрируется свет, рассеянный объектами в сцене, и создается двухмерное изображение на плоскости изображения. Плоскость изображения покрыта светочувствительным материалом — в сетчатке таковым являются молекулы родопсина, на фотографической пленке — галогены серебра, а в цифровой камере — массив элементов с зарядовой связью (Charge-Coupled Device — CCD). Каждый элемент в приборе с зарядовой связью (ПЗС) накапливает заряд, пропорциональный количеству электронов, освобожденных в результате поглощения фотонов за фиксированный период времени. В цифровой камере плоскость изображения представлена в виде прямоугольной решетки, состоящей из нескольких миллионов пикселов. В глазу имеется аналогичный массив элементов, состоящий примерно из 100 миллионов палочек и 5 миллионов колбочек, сгруппированных в гексагональный массив.

Материалы

ПОИСК СТРАТЕГИИ

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ОБЩЕНИЕ

ОБЩЕНИЕ КАК ДЕЙСТВИЕ

Основные понятия языка

ФОРМАЛЬНАЯ ГРАММАТИКА ДЛЯ ПОДМНОЖЕСТВА АНГЛИЙСКОГО ЯЗЫКА

Грамматика языка

СИНТАКСИЧЕСКИЙ АНАЛИЗ (СИНТАКСИЧЕСКИЙ РАЗБОР)

Эффективный синтаксический анализ

РАСШИРЕННЫЕ ГРАММАТИКИ

Субкатегоризация глагола

СЕМАНТИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ

Семантика небольшой части английского языка

Время события и времена глаголов

Прагматическая интерпретация

НЕОДНОЗНАЧНОСТЬ И УСТРАНЕНИЕ НЕОДНОЗНАЧНОСТИ

Устранение неоднозначности

ПОНИМАНИЕ РЕЧИ

Структура связной речи

ИНДУКТИВНЫЙ ВЫВОД ГРАММАТИКИ

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ВЕРОЯТНОСТНАЯ ОБРАБОТКА ЛИНГВИСТИЧЕСКОЙ ИНФОРМАЦИИ

Вероятностные контекстно-свободные грамматики

Определение с помощью обучения вероятностей для грамматики PCFG

ИНФОРМАЦИОННЫЙ ПОИСК

Сравнительный анализ систем информационного поиска

Совершенствование информационного поиска

Способы представления результирующих наборов

Создание систем информационного поиска

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ

МАШИННЫЙ ПЕРЕВОД

Системы машинного перевода

Статистический машинный перевод

Определение с помощью обучения вероятностей для машинного перевода

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ВОСПРИЯТИЕ

ФОРМИРОВАНИЕ ИЗОБРАЖЕНИЯ

Системы линз

Свет: фотометрия формирования изображения

Цвет — спектрофотометрия формирования изображения

ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ НА ПЕРВОМ ЭТАПЕ ОБРАБОТКИ ИЗОБРАЖЕНИЯ

Обнаружение краев

Сегментация изображения

ИЗВЛЕЧЕНИЕ ТРЕХМЕРНОЙ ИНФОРМАЦИИ

Движение

Бинокулярные стереоданные

Градиенты текстуры

Разделы

Поцелуй по расчету
Поэма Содди
Задача о сферах
Многомерность
Гость из четвертого измерения
Четырехмерный симплекс
Возможности нового измерения
Эксперимент Цельнера
Геометрия - это интуиция
Ущербность нашего восприятия
Объем - в плоскость
Наш плоский объемный мир
Мебиусиана
Односторонность листа Мебиуса
Топология - из листа Мебиуса
Число Бетти
Хроматический номер
Справа, где сердце
Бутылка Клейна
Мебиус и микромир
Левый и Правый Мебиусы
Эксперимент By Цзянь-сюн
Двухкомпонентная теория нейтрино
Зеркальные двойники
Роль формы
Вселенная искривляется
Тензорный анализ
Теория Вселенной Эйнштейна
Пульс Вселенной
Великолепная пятерка
О божественной пропорции
«Начала» Евклида
Доказательство Эйлера
Символы Шлефли
Гамильтонова линия
Изопиранная задача
Интуиция царицы Дидоны
Как управляется мир
Серьезные игры
Искусство орнамента
Федоровские группы
Игры Эсхера
Симметрии Эсхера
Нефедоровская кристаллография
Мировая гармония
Удавшаяся провокация
«Колючий» ёж Кеплера
Фигура Петри
Теория многогранников
Правильные и почти правильные тела
Песок расширяется!
Кубическая плотная упаковка
Плотность упаковки
Дома на песке
Тайные связи
Музыка сфер
Подкупающая простота
Модели Дончияна
Полезные политопы
Организация пространства
Радость видеть и понимать
Теории Земли
Бейсбольный мяч планеты
Катенаны
Вечный Геометр
Цепь причин и следствий
Счастливый случай
Метод Монте-Карло
Вероятностные методы
Бросаем песчинку
Сходство схем
Задачи распространения тепла
Случайные траектории
Возможности равны
Случай в игре
Игры с таблицей
Новые осложнения
Хуже-лучше
Расшифровка кодов
Роль элемента случайности
Обучение и случайность
Обучение автоматов
«Школьная» схема обучения
Обучение — самообучение
Шаблон поведения
Уметь пользоваться памятью
Опыты И. П. Павлова
Условный рефлекс
Связь между нейронами
Носитель памяти
Механизм образования условного рефлекса
Механизм «вспоминания»
Структура нервной сети
Простой эксперимент
Проблема опознания
Что такое опознание
Зрительные образы
Персептрон
Различаемые образы
Что умеет персептрон
Свойства персептрона
Залог опознания образов
Роль случайности в эволюции
К чему приводят мутации
Естественный отбор
«Безжалостность» законов природы
Приспособление вида
Схема гомеостата
Идея Эшби
Усилитель отбора
Усилитель мыслительных способностей
Схема искусственного отбора
Самонастраивающиеся системы и случайность
Непохожесть систем
Критерий близости к совершенству
Самонастраивающиеся системы
Наладчик сложных систем
Метод компенсации
Как настроить
Устройство автомата
Держим точный размер
Анализ станка-автомата
Обратное воздействие
Способ Гаусса — Зейделя
Анализ настроек
Метод градиента
Метод случайной настройки
Метод случайного поиска
Программа случайного поиска
Схема случайного поиска
Самонастраивающаяся система
Источник неограниченных возможностей

Искусственный интеллект. Современный подход