Наивные байесовские модели

По-видимому, к числу моделей на основе байесовской сети, которые наиболее широко используются в машинном обучении, относятся наивные байесовские модели. В таких моделях переменная "класса" С (значение которой должно быть предсказано) задана в корневом узле, а переменные "атрибутов" Xi заданы в листовых узлах. Такие модели называются "наивными", поскольку в них предполагается, что атрибуты являются условно независимыми друг от друга, если определен рассматриваемый класс (модель, приведенная на рис. 20.2, б, представляет собой наивную байесовскую модель только с одним атрибутом). При условии, что переменные являются булевыми, рассматриваемые параметры принимают такой вид:
9 = p{c=true) , Он = Р(Xi= true\С= true) , 0i2 = P(Xi= true| C= false)
Значения параметров с максимальным правдоподобием можно найти с помощью точно такого же способа, который применялся в сети на рис. 20.2, б. Сразу после
обучения данной модели с помощью такого способа она может использоваться для классификации новых примеров, в которых переменная класса С является ненаблюдаемой. При наличии значений наблюдаемых атрибутов xlt..., хп вероятность каждого класса определяется следующим соотношением:
Детерминистическое предсказание может быть получено путем выбора наиболее вероятного класса. На рис. 20.3 показана кривая обучения для этого метода, соответствующая примеру его применения к задаче с рестораном, описанной в главе 18. Обучение с помощью этого метода происходит довольно успешно, но не так хорошо, как при обучении деревьев решений; следует полагать, это связано с тем, что истинная гипотеза (представляющая собой дерево решений) не является точно предста-вимой с помощью наивной байесовской модели. Как оказалось, метод наивного байесовского обучения действует удивительно успешно в самых разнообразных приложениях, а его усиленная версия (упр. 20.5) является одним из наиболее эффективных алгоритмов обучения общего назначения. Метод наивного байесовского обучения хорошо масштабируется на очень большие задачи: при наличии п булевых атрибутов имеется только 2п+1 параметров и для обнаружения наивной байесовской гипотезы с максимальным правдоподобием, hML, не требуется поиск. Наконец, метод наивного байесовского обучения не сталкивается с затруднениями при обработке зашумленных данных и может предоставить вероятностные предсказания, когда это необходимо.
Обучение параметрам с максимальным правдоподобием: непрерывные модели
Непрерывные вероятностные модели, такие как линейная гауссова модель, описывались в разделе 14.3. Поскольку в реальных приложениях в основном используются непрерывные переменные, важно знать, как должно осуществляться обучение непрерывных моделей на основе данных. Принципы обучения с максимальным правдоподобием идентичны применяемым в дискретном случае.
Начнем с очень простого случая: обучение параметрам гауссовой функции плотности от одной переменной. Это означает, что данные вырабатываются следующим образом:
Параметрами этой модели являются математическое ожидание JI и среднеквадратичное отклонение а (обратите внимание на то, что нормализующая "константа" зависит от а, поэтому ее нельзя игнорировать). Допустим, что наблюдаемыми значениями являются х1#..., xN. В таком случае логарифмическое правдоподобие определяется следующим образом:
Таким образом, значение максимального правдоподобия среднего представляет собой среднее по выборкам, а значение максимального правдоподобия среднеквадратичного отклонения выражается квадратным корнем от дисперсии выборки. И в данном случае получены удобные результаты, которые подтверждают обоснованность практических методов, созданных на основе "здравого смысла".
Теперь рассмотрим линейную гауссову модель с одним непрерывным родительским значением X и непрерывным дочерним значением У. Как было описано на стр. 672, значение У имеет гауссово распределение, математическое ожидание которого линейно зависит от значения X, а среднеквадратичное отклонение является постоянным. Чтобы определить в результате обучения распределение условных вероятностей Р( Y\ X), можно максимизировать условное правдоподобие следующим образом:
где параметрами являются 0l9 02 и а. Данные представляют собой множество пар (xj,yj), как показано на рис. 20.4. Используя обычные методы (упр. 20.6), можно найти значения параметров с максимальным правдоподобием. Но в этом контексте нужно сделать еще одно замечание. Если рассматриваются только параметры 9i и 92, которые определяют линейную связь между х и у, то становится очевидно, что максимизация логарифмического правдоподобия по отношению к этим параметрам равносильна минимизации числителя в экспоненте уравнения 20.5:
Величина (у— (0+02) ) представляет собой ошибку для (x-j,y-j), т.е. разность между фактическим значением у и прогнозируемым значением (9ixD+92), поэтому Е представляет собой хорошо известную сумму квадратичных ошибок. Она является величиной, которую можно минимизировать с помощью стандартной процедуры линейной регрессии. Теперь можно понять, с чем это связано: минимизация суммы квадратичных ошибок позволяет получить линейную модель с максимальным правдоподобием, при условии, что данные вырабатывались с гауссовым шумом, имеющим постоянную дисперсию.







Материалы

Яндекс.Метрика