ОБУЧЕНИЕ С ПОМОЩЬЮ ПОЛНЫХ ДАННЫХ

Начнем разработку методов статистического обучения с простейшей задачи — обучение параметрам с помощью полных данных. Задача обучения параметрам сводится к поиску числовых параметров для вероятностной модели, имеющей фиксированную структуру. Например, может потребоваться определить в процессе обучения условные вероятности в байесовской сети с заданной структурой. Данные называются полными, если каждая точка данных содержит значения для каждой переменной в вероятностной модели, применяемой при обучении. При наличии полных данных задача определения в процессе обучения параметров сложной модели значительно упрощается. Кроме того, в данном разделе кратко рассматривается задача изучения структуры.
Обучение параметрам с помощью метода максимального правдоподобия: дискретные модели
Допустим, что мы покупаем пакет конфет с лимонными и вишневыми леденцами, выпущенный новым изготовителем, соотношение лимонных и вишневых леденцов в продукции которого полностью неизвестно; это означает, что доля тех и других леденцов может измеряться любым значением от 0 до 1. В данном случае приходится рассматривать континуум гипотез. Кроме того, в этом случае параметром, который будет обозначаться как 9, является доля вишневых леденцов, а гипотезой является hQ (доля лимонных леденцов выражается как 1-9). Если принято предположение, что все возможные значения долевого состава априорно являются равновероятными, то становится обоснованным подход на основе гипотезы с максимальным правдоподобием. Если мы промоделируем эту ситуацию с помощью байесовской сети, то потребуется только одна случайная переменная, Flavor (разновидность конфеты, случайно выбранной из пакета). Эта переменная принимает значения cherry к lime, где вероятность cherry равна Э (рис. 20.2, а). Теперь предположим, что развернуто iV конфет, из которых с оказались вишневыми леденцами, a Ј=N-c были лимонными леденцами. Согласно уравнению 20.3, правдоподобие этого конкретного набора данных выражается следующей формулой:
N
P(d\hQ) = Р(с?з|Ье) = 0Ч1-0)6 3=1
Гипотеза с максимальным правдоподобием задается значением Э, которое максимизирует это выражение. Такое же значение может быть получено путем максимизации значения логарифмического правдоподобия:
N
L(d\he) = log P(d\hQ) = log P(dj\he) = clogO + Под(1-9)
(Взяв логарифмы, мы преобразовали произведение в сумму по данным, которую обычно легче максимизировать.) Чтобы найти значение максимального правдоподобия Э, дифференцируем L по Э и приравняем полученное выражение к нулю следующим образом:
Таким образом, если описать это выражение на естественном языке, то гипотеза с максимальным правдоподобием hML утверждает, что фактическая доля вишневых леденцов в пакете равна наблюдаемой доле этих леденцов в конфетах, развернутых до сих пор!
На первый взгляд создается впечатление, что мы проделали большой объем работы лишь для того, чтобы открыть этот очевидный факт. Но в действительности описанным выше путем был создан один из стандартных методов обучения параметрам с максимальным правдоподобием, который описан ниже.
1. Записать выражение для правдоподобия данных как функции от параметра (параметров).
2. Найти производную логарифмического правдоподобия по отношению к каждому параметру.
3. Найти такие значения параметров, чтобы производные стали равными нулю.
Обычно самым сложным является последний из этих этапов. В рассматриваемом примере он был простейшим, но ниже будет показано, что во многих случаях приходится прибегать к использованию итерационных алгоритмов поиска решений или других числовых методов оптимизации, как было описано в главе 4. Кроме того, этот пример иллюстрирует важную проблему, которая в целом характерна для обучения с учетом максимального правдоподобия: если набор данных достаточно мал и поэтому некоторые события еще не наблюдались (например, не было обнаружено ни одной конфеты с вишневым леденцом), то гипотеза с максимальным правдоподобием одной конфеты с вишневым леденцом), то гипотеза с максимальным правдоподобием присваивает этим событиям нулевую вероятность. Для предотвращения возникновения этой проблемы использовались различные приемы, такие как инициализация счетчиков для каждого события значением 1, а не 0.
Рассмотрим еще один пример. Предположим, что этот новый изготовитель конфет хочет дать потребителю небольшую подсказку и использует для конфет обертки красного и зеленого цветов. Значение переменной Wrapper, соответствующей цвету обертки для каждой конфеты, выбирается по вероятностным законам, в соответствии с некоторым неизвестным условным распределением, но в зависимости от разновидностей конфет. Соответствующая вероятностная модель показана на рис. 20.2, б. Обратите внимание на то, что она имеет три параметра: 9, 9Х и 92. С использованием этих параметров правдоподобие события, связанного, скажем, с обнаружением вишневого леденца в зеленой обертке, можно определить на основе стандартной семантики для байесовских сетей (с. 664):
Р{Flavor-cherry, Wrapper=green |Ь.е,е1,е2)
= P(Flavor=cherry | h0,0;L,е2) Р (Wrapper= green | Flavor= cherry, he,QI,Q2 )
Теперь допустим, что развернуто N конфет, из которых с оказались вишневыми леденцами, а ? — лимонными, а количество оберток оказалось таковым: гс вишневых леденцов имели красные обертки, а дс — зеленые, тогда как г( лимонных леденцов имели красные обертки, a д( — зеленые. Правдоподобие этих данных выражается следующим образом:
На первый взгляд это соотношение кажется весьма сложным, но его можно упростить, взяв логарифмы, следующим образом:
L = [clogO + Под(1-0)] + [rclog9i + gclog(l-9i)] + [гДод92 + дДод(1-92)]
Преимущество взятия логарифмов является очевидным— логарифмическое правдоподобие представляет собой сумму трех термов, каждый из которых содержит единственный параметр. После взятия производных по каждому параметру и приравнивания их к нулю будет получено три независимых уравнения, каждое из которых содержит только один параметр:
Решение для Э остается таким же, как и прежде. Решение для 01? вероятности того, что вишневый леденец имеет красную обертку, представляет собой наблюдаемую долю вишневых леденцов в красных обертках, и аналогичным образом определяется решение для Э2.
Эти результаты являются очень удобными, и легко показать, что их можно распространить на любую байесовскую сеть, условные вероятности в которой представлены в виде таблицы. Наиболее важный вывод состоит в том, что при наличии полных данных задача обучения параметрам с максимальным правдоподобием для байесовской сети декомпонуется на отдельные задачи обучения, по одной для каждого параметра3. Еще один важный вывод состоит в том, что значения параметра для любой переменной при наличии ее родительских значений представляют собой наблюдаемые частоты значений переменных для каждого набора родительских значений. Как и прежде, необходимо внимательно следить за предотвращением появления нулевых значений, если набор данных является небольшим.







Материалы

Яндекс.Метрика