Использование правила Байеса: комбинирование свидетельств

Как было показано выше, правило Байеса может применяться для получения ответов на вероятностные запросы, в которых учтено условие, составляющее одно из свидетельств, например неподвижная шея. В частности, было показано, что вероятностная информация часто доступна в форме Р( effect \ cause) (где effect — результат, a cause — причина). А что произойдет, если свидетельств два или больше? Например, какой вывод может сделать зубной врач, если его стальной инструмент захватил больной зуб пациента, причинив еще большие страдания? Если известно полное совместное распределение (табл. 13.2), можно сразу же прочитать ответ:
Р{Cavity\ toothache л catch)= а <0.108,0.016> = <0.871,0.129>
Но нам уже известно, что такой подход не масштабируется на большее количество переменных.
Тогда можно попытаться воспользоваться правилом Байеса для переформулировки этой задачи:
Р(Cavity\ toothache л catch) =
а Р(toothache л catch\Cavity) Р(Cavity) (13.12)
Для того чтобы можно было найти ответ запрос в такой формулировке, необходимо знать условные вероятности конъюнкции toothache л catch для каждого значения Cavity. Такая задача может быть осуществима, если речь идет только о двух переменных свидетельства, но этот подход снова становится источником затруднений при его применении в больших масштабах. Если имеется п возможных переменных свидетельства (рентгеновское обследование, диета, гигиена полости рта и т.д.), то количество возможных комбинаций наблюдаемых значений, для которых необходимо будет знать условные вероятности, составит 2П. С таким же успехом можно было бы снова вернуться к использованию полного совместного распределения. Именно по этой причине исследователи после первых попыток отказались от применения теории вероятностей и обратились к приближенным методам комбинирования свидетельств, в которых требуется использовать меньше чисел для получения ответов, хотя сами эти ответы не всегда бывают правильными.
Вместо того чтобы следовать по такому пути, мы должны найти некоторые дополнительные утверждения о рассматриваемой проблемной области, которые позволят упростить применяемые выражения. Понятие независимости, приведенное в разделе 13.5, дает ключ к этому решению, но требует уточнения. Было бы прекрасно, если бы переменные Toothache и Catch были независимыми, но они таковыми не являются: если зубной врач захватывает зуб своим инструментом, то он делает это, вероятно, потому, что в этом зубе есть дупло, а это действие, вероятно, в свою очередь вызывает боль. Но эти переменные независимы, если речь идет о наличии или отсутствии дупла. Причиной каждого из соответствующих действий было дупло, но ни одно из них не оказывает непосредственного влияния на другое: зубная боль зависит от состояния нервов в зубе, а точность наложения инструмента зависит от навыков зубного врача10, к которым зубная боль не имеет отношения. Математически это свойство записывается следующим образом:

P(toothache л catch|Cavi ty) =
P(toothache]Cavity) P{catch\Cavity) (13.13)
В данном уравнении выражена условная независимость переменных toothache и catch, если дана вероятность Cavity. Соответствующее выражение можно вставить в уравнение 13.12 для определения вероятности наличия дупла:
Р(Cavity\ toothache л catch) =
а Р(toothache]Cavity)Р(catch]Cavity)Я(Cavity)
Теперь требования к наличию информации становятся такими же, как и при вероятностном выводе с использованием каждого свидетельства отдельно: необходимо знать априорную вероятность Р (Cavi ty) для переменной запроса и условную вероятность каждого результата, если дана его причина.
Общее определение условной независимости двух переменных X и Y, если дана третья переменная Z, выражается следующей формулой:
Р(Х, Y\Z) = Р(Х\Z) P(Y\ Z)
Например, в проблемной области стоматологии представляется вполне резонным применение утверждения об условной независимости переменных Toothache и Catch, если дана вероятность Cavi ty.
Р(Toothache,Catch]Cavity) =
P(Toothache]Cavity) P(Catch|Cavity) (13.14)
Обратите внимание на то, что это утверждение немного строже по сравнению с уравнением 13.13, в котором сформулировано утверждение о независимости только для конкретных значений Toothache и Catch. А при использовании свойства абсолютной независимости, сформулированного в уравнении 13.8, могут также применяться следующие эквивалентные формы:
P(X]Y,Z) = P(X]Z) и P(Y\X,Z) = V(Y]Z)
В разделе 13.5 показано, что утверждения с описанием свойств абсолютной независимости позволяют выполнять декомпозицию полного совместного распределения на гораздо более мелкие распределения. Как оказалось, аналогичную декомпозицию позволяют выполнять утверждения об условной независимости. Например, с помощью утверждения, приведенного в уравнении 13.14, декомпозицию можно вывести следующим образом:
Р(Toothache, Catch,Cavity)
= P(Toothache,Catch]Cavity) P(Cavity) (по правилу
произведения)
= P(Toothache]Cavi ty) P(Catch]Cavity) P(Cavity) (согласно
уравнению 13.14)
Таким образом, первоначальная крупная таблица декомпонована на три меньшие таблицы. В исходной таблице было семь независимых чисел (23-1, поскольку эти числа должны в сумме составлять 1). Меньшие таблицы содержат пять независимых чисел (2х(21-1) для каждого распределения условных вероятностей и 21-Гдля распределения априорной вероятности Cavity). Такое достижение на первый взгляд может показаться не очень значительным, но дело в том, что для п симптомов, являющихся условно независимыми, если дана вероятность Cavity, размер представления растет как О(п), а не 0(2П). Таким образом, & утверждения об условной независимости могут обеспечивать масштабирование вероятностных систем; более того, такие утверждения могут быть подкреплены данными намного проще по сравнению с утверждениями об абсолютной независимости. С концептуальной точки зрения переменная Cavity разделяет переменные Toothache и Catch, поскольку наличие дупла является прямой причиной и зубной боли, и наложения инструмента на зуб. Разработка методов декомпозиции крупных вероятностных областей определения на слабо связанные подмножества с помощью свойства условной независимости стало одним из наиболее важных достижений в новейшей истории искусственного интеллекта.
Приведенный выше пример из области стоматологии может служить проявлением часто встречающейся ситуации, в которой одна причина непосредственно влияет на целый ряд результатов, причем все эти результаты являются условно независимыми, если дана эта причина. Полное совместное распределение может быть записано следующим образом:
Р (Cause, Effects ..., Effectn) = Р (Cause) J P (Effecti \ Cause)
i
Указанное распределение вероятностей называется наивной байесовской моделью. Такая модель называется "наивной", поскольку часто используется (как упрощающее допущение) в тех случаях, когда переменные "результата" не являются условно независимыми, если дана переменная причины. (Наивную байесовскую модель иногда называют байесовским классификатором, а это не совсем корректное применение термина побудило настоящих специалистов в области байесовских моделей называть ее не наивной, а идиотской байесовской моделью.) На практике наивные байесовские системы могут действовать удивительно успешно, даже если предположение о независимости не является истинным. В главе 20 описаны методы изучения наивных байесовских распределений по данным наблюдений.







Материалы

Яндекс.Метрика