АРХИТЕКТУРЫ АГЕНТОВ
Возникает резонный вопрос: "Какие архитектуры агентов, описанные в главе 2, должны использоваться в агентах?" Ответом является: "Все архитектуры!" Выше было показано, что рефлексные реакции требуются в тех ситуациях, в которых существенным является фактор времени, а с другой стороны, рассуждения, основанные на знаниях, позволяют агенту планировать наперед. Полноценный агент должен быть способным выполнять и то и другое с использованием гибридной архитектуры. Одним из важных свойств гибридных архитектур является то, что границы между различными компонентами, обеспечивающими принятие решений, не постоянны. Например, в процессе компиляции декларативная информация, полученная на уровне формирования рассуждений, последовательно преобразуется во все более эффективные представления, что позволяет в конечном итоге достичь рефлексного уровня, как показано на рис. 27.2. (В этом состоит цель обучения на основе объяснения, как описано в главе 19.) Точно такую же структуру имеют такие архитектуры агентов, как Soar [880] и Theo [1063]. После решения каждой задачи с помощью явного формирования рассуждений эти агенты сохраняют обобщенную версию полученного решения для его использования в рефлексном компоненте. Менее изученной проблемой является проблема осуществления процесса, обратного указанному, — после изменения среды рефлексы, усвоенные в результате обучения, могут оказаться больше не подходящими, и агенту может потребоваться вернуться на уровень формирования рассуждений, для того чтобы выработать новые способы поведения.
Агентам могут также потребоваться способы, позволяющие управлять своими собственными процессами формирования рассуждений. Они должны быть способными прекратить размышления, когда потребуются действия, а также должны умело использовать время, отведенное на рассуждения, чтобы выполнить наиболее продуктивные вычисления. Например, агент-водитель такси, который обнаружил впереди картину дорожного происшествия, должен решить за долю секунды, следует ли ему затормозить или объехать то место, где случилось происшествие. Кроме того, данный агент должен также потратить лишь долю секунды на размышление о наиболее важных в этой ситуации вопросах, например, нет ли движения на полосах слева и справа и нет ли непосредственно сзади него большого грузовика, но не задумываться над тем, что резкий маневр увеличит износ и стирание шин автомобиля или что ему давно нужно было найти очередного пассажира. Исследование таких проблем осуществляется главным образом в рамках направления искусственного интеллекта реального времени. По мере того как системы искусственного интеллекта проникают во все более сложные проблемные области, все решаемые задачи становятся задачами реального времени, поскольку агенту никогда больше не отводится достаточно времени для точного решения задачи принятия решений.
Очевидно, что становится насущной потребность в методах, которые позволяют действовать в более общих ситуациях принятия решений. В последние годы появились два перспективных метода. В первом из них предусматривается использование алгоритмов с отсечением по времени [357], [682]. Алгоритмом с отсечением по времени называется алгоритм, качество выходных данных которого неизменно улучшается во времени, поэтому он всегда готов предоставить приемлемое решение, когда бы ни была прервана его работа. Такие алгоритмы действуют под управлением ме-тауровневой процедуры принятия решений, которая оценивает, стоит ли выполнять дальнейшие вычисления. Простым примером алгоритма с отсечением по времени является поиск с итеративным углублением в задачах ведения игр. Могут также быть созданы более сложные системы, состоящие из многих таких алгоритмов, действующих вместе [1647]. Вторым методом являются метарассуждения на основе теории решений [683], [687], [1332]. В этом методе применяется теория ценности информации (см. главу 16) для выбора вычислений. Ценность вычислений зависит и от их стоимости (с точки зрения того, что действие не проводится, пока они осуществляются) и от их преимуществ (измеряемых с учетом того, насколько повысилось качество решения). Методы формирования метарассуждений могут использоваться для проектирования лучших алгоритмов поиска и для обеспечения гарантий того, что алгоритмы будут обладать вневременным свойством. Безусловно, подход на основе метарассуждений является дорогостоящим, а методы компиляции могут применяться таким образом, чтобы издержки были малы по сравнению со стоимостями контролируемых вычислений.
Тем не менее метарассуждения представляют собой лишь один из аспектов общей рефлексивной архитектуры, т.е. архитектуры, позволяющей формировать рассуждения о вычислительных сущностях и действиях, возникающих в самой архитектуре. Теоретическую основу для рефлексивных архитектур можно заложить, определив совместное пространство состояний, складывающееся из состояний среды и вычислительного состояния самого агента. Могут быть спроектированы алгоритмы принятия решений и обучения, которые применяются к этому совместному пространству состояний и поэтому способствуют реализации и совершенствованию вычислительной деятельности агента. Мы надеемся, что в конечном итоге такие алгоритмы, предназначенные для решения узко конкретных задач, как альфа-бета поиск и обратный логический вывод, исчезнут из систем искусственного интеллекта и будут заменены общими методами, которые направляют вычисления агента в сторону эффективного формирования высококачественных решений.
27.3. ОЦЕНКА ПРАВИЛЬНОСТИ ВЫБРАННОГО НАПРАВЛЕНИЯ
В предыдущем разделе были перечислены многие достижения и многие возможности для дальнейшего прогресса. Но в каком направлении идет все это развитие? Дрейфус [415] проводит аналогию с попыткой достать до луны, взбираясь на дерево; в ходе этого наблюдается постоянный прогресс до тех пор, пока не будет достигнута вершина дерева. В этом разделе мы рассмотрим, напоминает ли текущий путь развития искусственного интеллекта подъем по стволу дерева или взлет ракеты.
В главе 1 было указано, что наша цель состоит в создании агентов, которые действуют рационально, но в той же главе было также указано следующее:
...задача достижения идеальной рациональности, при которой всегда выполняются правильные действия, не осуществима. Дело в том, что при этом предъявляются слишком высокие требования к вычислительным ресурсам. Но в основной части данной книги применяется рабочая гипотеза, согласно которой идеальная рациональность является хорошей отправной точкой для анализа.
Теперь настало время определить, в чем именно состоит цель искусственного интеллекта. Мы стремимся создавать агентов, но какой спецификацией следует при этом руководствоваться? Ниже описаны четыре возможных варианта.
• Идеальная рациональность. Идеально рациональный агент в каждое мгновение действует таким образом, чтобы максимизировать свою ожидаемую полезность с использованием информации, полученной им из среды. Но было показано, что вычисления, необходимые для достижения идеальной рациональности, в большинстве вариантов среды требуют слишком больших затрат времени, поэтому задача обеспечения идеальной рациональности не является реалистичной.
• Вычислительная рациональность. Это понятие рациональности использовалось нами неявно при проектировании логических агентов и агентов, основанных на принятии решений. Вычислительно рациональный агент в конечном итоге возвращает то, что рассматривалось как рациональный выбор в начале этапа формирования им рассуждений. Такое свойство может представлять интерес, только если система используется лишь в демонстрационных целях, а в большинстве вариантов среды правильный ответ теряет свою ценность, если он не был своевременным. На практике проектировщики систем искусственного интеллекта вынуждены искать компромисс между требованиями по обеспечению качества решений и требованиями по уменьшению затрат времени на получение приемлемой общей производительности; к сожалению, теоретические основы вычислительной рациональности не позволяют предложить достаточно обоснованного способа выработки таких компромиссов.
• Ограниченная рациональность. Герберт Саймон [1415] отверг идею идеальной (или даже приближенно идеальной) рациональности и предложил использовать понятие ограниченной рациональности — описательную теорию принятия решений реальными агентами. Ниже приведена цитата из его работы.
Способность человеческого разума формулировать и решать сложные задачи слишком мала по сравнению с масштабами задач, для которых требуется искать решение, чтобы осуществлять объективно рациональное поведение в реальном мире, или хотя бы добиваться приемлемого приближения к такой объективной рациональности.
Саймон выдвинул предложение, что принцип ограниченной рациональности главным образом основан на принципе непритязательности (satisficing), т.е. на том, что проведение рассуждений следует осуществлять достаточно долго лишь для того, чтобы предложить "вполне приемлемый" ответ. За указанную выше работу Саймон получил Нобелевскую премию по экономике, а позднее выпустил книгу, в которой подробно осветил все свои идеи [1418]. По-видимому, понятие непритязательности может служить полезной моделью человеческого поведения во многих случаях. Но оно не является формальной спецификацией для интеллектуальных агентов, поскольку в теории Саймона не дано определение "вполне приемлемого" ответа. Кроме того, принцип непритязательности, по-видимому, является лишь одним из широкого спектра методов, используемых для осуществления действий в условиях ограниченных ресурсов.
• Ограниченная оптимальность (Bounded Optimality — ВО). Ограниченно оптимальный агент действует настолько хорошо, насколько это возможно, с учетом его вычислительных ресурсов. Это означает, что ожидаемая полезность программы агента для ограниченного оптимального агента является по меньшей мере такой же высокой, как и ожидаемая полезность любой другой агентской программы, работающей на том же компьютере.
По-видимому, наилучшие перспективы создания мощного теоретического фундамента для искусственного интеллекта открывает только одна из этих четырех возможностей — ограниченная оптимальность. Преимущество связанного с ней подхода состоит в том, что он является осуществимым, — всегда можно найти по меньшей мере одну наилучшую программу, а таким свойством не обладает подход с идеальной рациональностью. Ограниченно оптимальные агенты действительно применимы в реальном мире, тогда как вычислительно рациональные агенты обычно неприменимы, а агенты, действующие по принципу непритязательности, могут оказаться применимыми или нет, в зависимости от их собственных конструктивных особенностей.
Традиционным подходом в искусственном интеллекте было то, что нужно начинать с вычислительной рациональности, а затем вырабатывать компромиссы с учетом ресурсных ограничений. Если проблемы, связанные с применением ограничений, не столь существенны, то можно надеяться на создание окончательного проекта, аналогичного проекту ограниченно оптимального агента. Но, по мере того как ресурсные ограничения становятся все более важными (например, по мере усложнения среды), может оказаться так, что два проекта станут весьма несхожими. А в теории ограниченной оптимальности эти ограничения могут учитываться в рамках целостного подхода.
До сих пор объем знаний в области ограниченной оптимальности остается не таким уж значительным. Известно, что могут быть созданы ограниченно оптимальные программы для очень простых машин и для довольно лимитированных вариантов среды [445], [1330], но еще нет полного представления о том, какими должны быть программы ВО для больших компьютеров общего назначения, применяемых в сложных вариантах среды. Если теория ограниченной оптимальности будет носить конструктивный характер, то можно рассчитывать на получение проектов ограниченно оптимальных программ, которые не слишком сильно зависят от устройства используемого компьютера. Научные исследования стали бы весьма затруднительными, если бы увеличение объема памяти гигабайтового компьютера на несколько килобайтов привело к существенному изменению программы ВО. Одним из способов обеспечения того, чтобы это не могло случиться, может служить небольшое ослабление критериев ограниченной оптимальности. По аналогии с понятием асимптотической сложности (приложение А) можно определить понятие асимптотической ограниченной оптимальности (Asymptotic Bounded Optimality— ABO), как описано ниже [1329]. Предположим, что программа р является ограниченно оптимальной для компьютера М в классе вариантов среды Е, тогда как сложность вариантов среды в Е не ограничена. В таком случае программа р1 обладает свойством АВО для м в Е, если она может превзойти по производительности программу р, работая на компьютере км, который в к раз быстрее (или крупнее) по сравнению с м. За исключением предельных значений к было бы достаточно иметь программу, обладающую свойством АВО, для нетривиальной среды в нетривиальной архитектуре. Было бы мало смысла затрачивать невероятные усилия на поиск программ ВО, а не АВО, поскольку все равно размеры и скорость доступных компьютеров увеличиваются на постоянный коэффициент через фиксированные промежутки времени, в связи с появлением каждого нового поколения этих устройств.
Можно рискнуть предположить, что программы ВО или АВО для мощных компьютеров, действующих в сложных вариантах среды, не обязательно должны иметь простую, изящную структуру. Выше уже было показано, что для искусственного интеллекта общего назначения требуются некоторые рефлексивные способности и некоторые способности к формированию рассуждений, целый ряд форм представления знаний и принятия решений, механизмы обучения и компиляции для всех этих форм, методы управления процессом формирования рассуждений и большой запас знаний в данной конкретной области. Ограниченно оптимальный агент должен адаптироваться к той среде, в которой он находится сам, с тем чтобы в конечном итоге его внутренняя организация соответствовала возможностям оптимизации, характерным для данной конкретной среды. Можно рассчитывать лишь на указанную возможность, а такой ход развития аналогичен пути, по которому развивались гоночные автомобили с ограничениями на мощность, пока наконец не были созданы чрезвычайно сложные, но весьма эффективные проекты. По мнению авторов, наука искусственного интеллекта, основанная на понятии ограниченной оптимальности, будет способствовать интенсивному исследованию процессов, позволяющих путем последовательных итераций создавать агентские программы с ограниченной оптимальностью и, возможно, меньше сосредоточиваться на анализе того, как именно устроены создаваемые при этом программы, пусть даже не такие изящные.
Подводя итог, можно отметить, что проведение разработки понятия ограниченной оптимальности было предложено в качестве формальной задачи для исследований по искусственному интеллекту, которая не только хорошо определена, но и осуществима. Ограниченная оптимальность определяет оптимальные программы, но не оптимальные действия. А действия в конечном итоге вырабатываются программами и с помощью программ, которые полностью зависят от замысла проектировщика.