КОМПОНЕНТЫ АГЕНТА

• Слежение за состоянием мира. Это — одна из основных способностей, которой должен обладать интеллектуальный агент. Для этого требуется и восприятие, и обновление внутренних представлений. В главе 7 описаны методы слежения за миром, представленные в форме пропозициональной логики; в главе 10 они расширены до логики первого порядка, а в главе 15 представлены алгоритмы фильтрации для слежения за неопределенными вариантами среды. Эти инструментальные средства фильтрации вступают в действие, когда приходится сталкиваться с реальными (поэтому далекими от идеала) результатами восприятия. Современные алгоритмы фильтрации и восприятия могут комбинироваться для успешного выполнения заданий по составлению сообщений в виде предикатов низкого уровня, таких как "на столе стоит чашка", но еще многое предстоит сделать, прежде чем с помощью этих алгоритмов можно будет составить отчет, например, о том, что "доктор Рассел пьет чай с доктором Норвигом". Еще одна проблема состоит в том, что алгоритмы приближенной фильтрации, хотя и могут действовать в весьма обширной среде, остаются по сути пропозициональными, поэтому, как и пропозициональная логика, не позволяют явно представлять объекты и отношения. В главе 14 описано, как можно применить в сочетании теорию вероятностей и логику первого порядка для решения этой задачи; можно рассчитывать на то, что применение этих идей для слежения за сложными вариантами среды со временем позволит добиться огромных преимуществ. Кстати, как только речь заходит об объектах в неопределенной среде, нам приходится сталкиваться с неопределенностью идентичности, поскольку часто неизвестно, не потерян ли из виду тот объект, за которым мы начинали следить. Эта проблема в системах искусственного интеллекта, основанных на логике, почти всегда игнорировалась, поскольку в основном предполагалось, что результаты восприятия включают константные символы, которые однозначно обозначают те или иные объекты.
• Проектирование, оценка и выбор будущих способов действий. При решении этой задачи требования к представлению основных знаний остаются такими же, как и при решении задачи слежения за миром; трудности состоят главным образом в том, что приходится сталкиваться с проявлениями действий (например, связанных с проведением беседы или совместного чаепития), которые в конечном итоге состоят из тысяч или миллионов примитивных шагов, выполняемых реальным агентом. Вообще говоря, люди осуществляют такое сложное поведение исключительно благодаря тому, что действуют в рамках иерархической структуры поведенческих актов. В некоторых из алгоритмов планирования, приведенных в главе 12, используются иерархические представления и представления в логике первого порядка, позволяющие справляться с проблемами реальных масштабов; с другой стороны, в алгоритмах принятия решений в условиях неопределенности, приведенных в главе 17, по существу используются такие же идеи, как и в алгоритмах поиска с учетом состояния, рассматриваемых в главе 3. В этой области необходимо выполнить еще очень большой объем работы, возможно, на основе новейших достижений в области иерархического обучения с подкреплением.
• Полезность как способ выражения предпочтений. Вообще говоря, принцип, согласно которому рациональные решения должны быть основаны на максимизации ожидаемой полезности, является полностью общим и позволяет избежать многих проблем, связанных с подходами, основанными исключительно на достижении цели, таких как конфликтующие цели и ненадежные результаты. Однако до сих пор еще очень мало сделано в области создания реальных функций полезности. Достаточно представить себе, например, в какой сложной сети взаимодействующих предпочтений должен разбираться агент, действующий в качестве ассистента-делопроизводителя для чиновника. Как оказалось, задача декомпозиции предпочтений по сложным состояниям, подобная тому, как осуществляется декомпозиция убеждений по сложным состояниям в байесовских сетях, является весьма трудноразрешимой. Одна из причин этого может состоять в том, что распределение предпочтений по состояниям фактически компилируется из предпочтений, распределенных по историям состояний, которые описываются с помощью функций вознаграждения (см. главу 17). Даже если функция вознаграждения является простой, соответствующая функция полезности может оказаться очень сложной. Это означает, что мы должны рассматривать задачу инженерии знаний для функций вознаграждения, которая должна стать способом информирования разрабатываемых агентов о том, какие к ним предъявляются требования, как очень серьезную.
• Обучение. В главах 18—20 описано, как может быть сформулирована задача обучения агента в виде задачи определения с помощью индуктивного обучения (контролируемого, неконтролируемого или основанного на подкреплении) тех функций, которые лежат в основе различных компонентов агента. Были разработаны очень мощные логические и статистические методы, позволяющие справляться с весьма значительными проблемами, часто достигающие или превосходящие возможности человека по идентификации предсказательных шаблонов, определенных в заданном словаре. С другой стороны, в области машинного обучения достигнуты лишь весьма небольшие успехи в решении важной проблемы формирования новых представлений на уровнях абстракции, более высоких по сравнению с входным словарем. Например, как может автономный робот выработать полезные предикаты, такие как Office и Cafe, если они не будут предоставлены ему разработчиком? Аналогичные соображения распространяются и на проблему определения с помощью обучения способа поведения; например, участие в чаепитии HavingACupOfTea — это важное действие высокого уровня, но как ввести его в библиотеку действий, которая первоначально содержит гораздо более простые действия, такие как RaiseArm (Поднять руку) и Swallow (Сделать глоток)? Если мы не поймем специфику таких проблем, то столкнемся с утомительной задачей построения больших баз обыденных знаний вручную.







Материалы

Яндекс.Метрика