Обучение байесовских сетей со скрытыми переменными

Чтобы определить в процессе обучения параметры байесовской сети со скрытыми переменными, можно применить такие же подходы, которые позволили добиться успеха в случае смешанных гауссовых распределений. На рис. 20.10 показана ситуация, в которой имеются два пакета конфет, смешанных друг с другом. Для описания конфет применяются три характеристики: кроме разновидности Flavor и обертки Wrapper, в некоторых конфетах находятся леденцы с отверстиями Hole в середине, а в некоторых — леденцы без отверстий. Распределение конфет в каждом пакете описано с помощью наивной байесовской модели: в каждом конкретном пакете характеристики являются независимыми, но распределение условных вероятностей каждой характеристики зависит от пакета. Применяются следующие параметры: Э — априорная вероятность того, что конфета взята из пакета Bag 1; 0F1 и 0F2 — вероятности того, что конфета относится к разновидности вишневых леденцов, при условии, что эта конфета взята из пакета Bag 1 и Bag 2 соответственно; 0wi и 0W2 задают вероятности того, что обертка имеет красный цвет; a 0Hi и 0Н2 — вероятности того, что леденец имеет отверстие. Обратите внимание на то, что вся эта модель в целом представляет собой модель смешанного распределения (в действительности это смешанное гауссово распределение можно также промоделировать в виде байесовской сети, как показано на рис. 20.10, б). На этом рисунке скрытая переменная соответствует пакету, поскольку после смешивания конфет мы больше не имеем возможности определить, из какого пакета взята каждая конфета. Можно ли в таком случае восстановить описание этих двух пакетов, наблюдая за характеристиками конфет, взятых из этой смеси?
Проведем одну итерацию алгоритма ЕМ для решения этой задачи. Вначале рассмотрим данные. Сформировано 1000 выборок из модели, истинными параметрами которой являются следующие:
9 = 0.5, On = Owi = OHI = 0.8, 0F2 = 0w2 = 0н2 = 0.3 (20.7)
Это означает, что равновероятно получение конфет из одного или другого пакета; в первом пакете в основном находятся вишневые леденцы в красных обертках и с отверстиями, а во втором — в основном лимонные леденцы в зеленых обертках и без отверстий. Количество восьми возможных разновидностей конфет определено в табл. 20.1.
(Обратите внимание на то, что нормализующая константа также зависит от параметров.) Применяя эту формулу, например, к данным о 273 конфетах в красной обертке, среди которых находятся вишневые леденцы с отверстиями, определим, какой вклад они вносят в распределение вероятностей:
273 ей? ей ей э(0)
юоо ' ей е) е«» + 0(о, ей> е<о> п», ~ 0.22797
Продолжая эти расчеты для семи других видов конфет, количество которых указано в табл. 20.1, получим, чтоб(1) = 0.6124.
Теперь рассмотрим другие параметры, такие как 0F1. В полностью наблюдаемом случае это значение можно было бы оценить непосредственно на основе наблюдаемых значений количества вишневых и лимонных леденцов из пакета 1. Ожидаемое количество вишневых леденцов из пакета 1 задается с помощью следующего выражения:
Р{Вад~11 Flavorj = cherry, wrapper, holes j)
j:Flavorj=cherry
Эти вероятности также можно вычислить с помощью любого алгоритма для байесовской сети. Продолжая этот процесс, получим новые значения для всех параметров:
0(1) = 0.6124, Ой = 0.6684, e(wV = 0.6483, Ой = 0.6558
QLF2 = 0.3887 , е(мУ = 0.3817, 6$ = 0.3827 (20.9)
Логарифмическое правдоподобие данных возрастает от первоначального значения, примерно равного -2 044, приблизительно до -2 021 после первой итерации, как показано на рис. 20.9, б. Это означает, что в данном обновлении само значение правдоподобия улучшается примерно на коэффициент е23=1010. К десятой итерации модель, полученная в процессе обучения, лучше согласуется с данными, чем первоначальная модель (L=-1982 .214). Но дальнейший прогресс очень сильно замедляется. Такая ситуация в приложениях алгоритма ЕМ встречается весьма часто, поэтому во многих практически применяемых системах алгоритм ЕМ на последнем этапе обучения используется в сочетании с таким алгоритмом на основе градиента, как алгоритм Ньютона—Рафсона (см. главу 4).
Общий вывод, который может быть сделан на основании данного примера, состоит в том, что <Ж обновления параметров при обучении байесовской сети со скрытыми переменными являются непосредственно доступными из результатов вероятностного вывода по каждому примеру. Более того, для каждого параметра требуются только локальные апостериорные вероятности. Для общего случая, в котором в процессе обучения определяются параметры условной вероятности для каждой переменной х±, если даны ее родительские переменные (иначе говоря, 0ijk=P(Xj=Xij | Pai=paik)), обновление задается с помощью нормализованных ожидаемых количеств следующим образом:
6ijk <- N(Xi=Xij/Pai=paik) /N(Pai=paib)
Эти ожидаемые количества можно получить путем суммирования по всем примерам и вычисления вероятностей P(Xi=Xij, Pai=paik) для каждого из них с использованием любого алгоритма вероятностного вывода в байесовской сети. Для использования в точных алгоритмах (включая алгоритмы удаления переменных) все эти вероятности могут быть получены непосредственно как побочный продукт стандартного вероятностного вывода, без необходимости применения дополнительных вычислений, характерных для обучения. Более того, информация, необходимая для обучения, доступна локально применительно к каждому параметру.







Материалы

Яндекс.Метрика