Обучение байесовским параметрам

Метод обучения с максимальным правдоподобием может стать основой некоторых очень простых процедур, но обнаруживает определенные серьезные недостатки при работе с небольшими наборами данных. Например, после обнаружения одного вишневого леденца в этом методе вырабатывается гипотеза с максимальным правдоподобием, что данный пакет на 100% состоит из вишневых леденцов (т.е. 9=1. 0). Но если только принятое распределение априорных вероятностей гипотезы не сводится к тому, что в пакетах должны находиться лишь одни вишневые леденцы либо исключительно лимонные леденцы, то такое заключение является необоснованным. В байесовском подходе к обучению параметрам распределению априорных вероятностей гипотезы дается предпочтение над возможными значениями параметров, а само распределение обновляется по мере поступления данных.
В примере с конфетами, приведенном на рис. 20.2, я, имеется только один параметр, Э, — вероятность того, что случайно выбранная конфета относится к разновидности вишневых леденцов. С точки зрения байесовского подхода Э представляет собой (неизвестное) значение случайной переменной 0; распределение априорных вероятностей гипотезы представляет собой распределение априорных вероятностей Р (Э). Таким образом, р(0=0) — это априорная вероятность того, что в пакете имеется доля Э вишневых леденцов.
Если параметр Э может иметь любое значение от 0 до 1, то Р (0) должно представлять собой непрерывное распределение, которое является ненулевым только между 0 и 1 и интеграл которого равен 1. Одним из потенциальных распределений, пригодных для этой роли, является распределение с равномерной плотностью Р(0)=С7[О,1] (Э) (см. главу 13). Как оказалось, распределение с равномерной плотностью является членом семейства бета-распределений. Каждое бета-распределение определяется двумя гиперпараметрами4, а и Ь, такими, что справедливо следующее соотношение для Э в диапазоне значений [0,1]:
beta[a,b](0) = а 9а_1 (1-0)b_1 (20.6)
Константа нормализации а зависит от а и Ъ (см. упр. 20.8). На рис. 20.5 показано, как выглядит это распределение при различных значениях а и Ь. Среднее значение этого распределения равно а/ (а+Ь), поэтому большие значения а показывают обоснованность убеждения, что О ближе к 1, чем к 0. При больших значениях а+Ь распределение становится более заостренным, что выражает большую уверенность в правильности значения О. Таким образом, семейство бета-распределений предоставляет удобный ряд возможностей выбора распределений априорных вероятностей гипотезы.
Кроме такой гибкости, семейство бета-распределений обладает еще одним замечательным свойством: если переменная 0 имеет распределение априорных вероятностей beta [ а, Ь], то после наблюдения в любой точке данных распределение апостериорных вероятностей для 0 также становится бета-распределением. Семейство бета-распределений называется сопряженным распределением априорных вероятностей для семейства распределений, относящихся к некоторой булевой переменной5. Рассмотрим, как применяется это свойство. Предположим, что наблюдается появление вишневого леденца; в таком случае имеет место следующее соотношение:
P(0|Di=cherry) = а Р{Dcherry\Q) Р(9)
= ОГВ • beta[a,b](9) = а'9 • 9a_1 (l-9)b_1 = oc'9a(l-9)b_1 = beta[a+l,b](9)
Таким образом, после обнаружения вишневого леденца наращивается параметр а для получения нового распределения апостериорных вероятностей; аналогичным образом, после обнаружения лимонного леденца наращивается параметр Ь. Поэтому гиперпараметры а и Ъ можно рассматривать как виртуальные счетчики, в том смысле, что распределение априорных вероятностей beta [а, Ь] ведет себя точно так же, как если бы обучение начиналось с равномерного распределения априорных вероятностей beta [1,1], после чего было фактически обнаружено а-1 вишневых леденцов и Ь-1 лимонных.
Изучая последовательность бета-распределений, соответствующих возрастающим значениям а и Ь, и поддерживая постоянные пропорции, можно наглядно продемонстрировать, как изменяется распределение апостериорных вероятностей по параметру 0 по мере поступления новых данных. Например, предположим, что пакет с конфетами в действительности содержит 75% вишневых леденцов. На рис. 20.5, б показана последовательность распределений beta [ 3,1 ], beta [6,2], beta [30,10]. Очевидно, что эта последовательность сходится к узкому пику вокруг истинного значения О. Поэтому при наличии больших наборов данных процесс байесовского обучения постепенно сходится (по меньшей мере в данном случае) и позволяет получить такие же результаты, как и обучение с учетом максимального правдоподобия.
Сеть, показанная на рис. 20.2, б, имеет три параметра, Э, Э15 и Э2, где 0! — вероятность наличия красной обертки на вишневом леденце, а Э2 — вероятность наличия красной обертки на лимонном леденце. Распределение априорных вероятностей байесовской гипотезы должно охватывать все три параметра; это означает, что необходимо задать распределение р (0,01# 02). Обычно предполагается, что соблюдается свойство независимости параметров, как показано ниже.
Р(0, 01,02) = p(0)P(0i)P(02)
Согласно этому предположению, каждый параметр может иметь свое собственное бета-распределение, которое обновляется отдельно по мере поступления данных.
После того как была сформулирована идея, что неизвестные параметры могут быть представлены случайными переменными, такими как 0, из нее можно вывести естественное заключение, что эти параметры можно включить в саму байесовскую
сеть. Для этого также потребуется сделать копии переменных, описывающих каждый экземпляр. Например, если проверены три леденца, то для их описания потребуются переменные Flavor Flavor2, Flavor3, а также Wrapper Wrapper2, Wrapper3. Параметрическая переменная 0 определяет вероятность каждой переменной Flavor.
P{Flavon=cherry\B=Q) = 9
Аналогичным образом, вероятности оберток зависят от 0! и 02, например: Р( Wrapperi=red\Flavori=cherry, 0i=9i) = 9i
Теперь весь байесовский процесс обучения можно сформулировать как задачу вероятностного вывода в байесовской сети, имеющей соответствующую структуру (рис. 20.6). Предсказание, касающееся нового экземпляра примера, можно получить, добавляя к сети новые переменные экземпляра, с тем условием, что значения некоторых из них можно будет определять с помощью запросов. Такая формулировка процессов обучения и предсказания наглядно показывает, что для байесовского обучения не требуется задавать дополнительные "принципы обучения". Кроме того, это означает, что в действительности существует лишь единственный алгоритм обучения, т.е. алгоритм вероятностного вывода для байесовских сетей.







Материалы

Яндекс.Метрика