ПОИСК С ЧАСТИЧНОЙ ИНФОРМАЦИЕЙ

В разделе 3.3 было выдвинуто предположение, что среда является полностью наблюдаемой и детерминированной и что агент имеет информацию о том, каковы последствия каждого действия. Поэтому агент может точно вычислить, какое состояние становится результатом любой последовательности действий, и всегда знает, в каком состоянии он находится. Его восприятия не предоставляют новой информации после выполнения каждого действия. Но что произойдет, если знания о состояниях или действиях являются неполными? Авторы обнаружили, что разные типы неполноты приводят к трем перечисленным ниже типам проблем.
1. Проблемы отсутствия датчиков (называемые также проблемами совместимости).
Если агент вообще не имеет датчиков, то (насколько ему известно) может находиться в одном из нескольких возможных начальных состояний и поэтому каждое действие способно перевести его в одно из нескольких возможных состояний-преемников.
2. Проблемы непредвиденных ситуаций. Если среда наблюдаема лишь частично или действия являются неопределенными, то акты восприятия агента предоставляют новую информацию после выполнения каждого действия. Каждое возможное восприятие определяет непредвиденную ситуацию, к которой необходимо подготовиться с помощью соответствующего плана. Проблема называется обусловленной сторонним воздействием, если неопределенность вызвана действиями другого агента.
3. Проблемы исследования. Если состояния и действия в среде неизвестны, агент должен действовать так, чтобы их обнаружить. Проблемы исследования могут рассматриваться как крайний случай проблем непредвиденных ситуаций.
В качестве примера мы будем использовать среду мира пылесоса. Напомним, что пространство состояний имеет восемь состояний, как показано на рис. 3.12. Существуют три действия (Left, Right и Suck), и цель состоит в том, чтобы был убран весь мусор (состояния 7 и 8). Если среда наблюдаема, детерминирована и полностью известна, то эта задача решается тривиально с помощью любого из описанных нами алгоритмов. Например, если начальным является состояние 5, то последовательность действий [Right, Suck] обеспечивает достижение целевого состояния 8. В оставшейся части этого раздела рассматриваются версии данной задачи, в которых отсутствуют датчики и возникают непредвиденные ситуации. Проблемы исследования описаны в разделе 4.5, а проблемы, обусловленные сторонним воздействием, — в главе 6.







Материалы

Яндекс.Метрика