Определение с помощью обучения структур байесовских сетей со скрытыми переменными

В разделе 20.2 обсуждалась задача определения с помощью обучения структур байесовских сетей на основе полных данных. А если приходится учитывать скрытые переменные, то задача осложняется. В простейшем случае скрытые переменные могут быть включены в общий список наряду с наблюдаемыми переменными; хотя их значения не наблюдаются, алгоритм обучения получает сведения о том, что они существуют, и должен найти для них место в структуре сети. Например, с помощью алгоритма может быть предпринята попытка определить в процессе обучения структуру, показанную на рис. 20.7, а, на основе той информации, что в модель должна быть включена переменная HeartDisease (трехзначная переменная). Если же алгоритму обучения не предоставлена эта информация, то в процессе обучения возникают два варианта: либо исходить из того, что данные действительно являются полными (что вынуждает алгоритм определить в процессе обучения модель с гораздо большим количеством параметров, показанную на рис. 20.7, б), либо изобрести новые скрытые переменные для упрощения модели. Последний подход можно реализовать путем включения новых вариантов операций модификации в процедуру поиска структуры — предусмотреть в алгоритме возможность не только модифицировать связи, но и добавлять или удалять скрытые переменные либо менять их арность. Безусловно, в таком алгоритме нельзя предусмотреть возможность назвать вновь изобретенную переменную, допустим HeartDisease, а также присваивать ее значениям осмысленные имена. Но, к счастью, вновь изобретенные скрытые переменные обычно связываются с ранее существовавшими переменными, поэтому человек — специалист в данной проблемной области часто может проверять локальные распределения условных вероятностей, касающиеся новой переменной, и устанавливать ее смысл.
Как и в случае полных данных, процесс определения структуры с помощью обучения с учетом максимального правдоподобия в чистом виде приводит к созданию полносвязной сети (более того, сети без скрытых переменных), поэтому требуется ввести какую-то форму штрафования за сложность. Для аппроксимации байесовского обучения можно также применить алгоритм МСМС. Например, можно предусмотреть определение в процессе обучения параметров смешанного гауссова распределения с неизвестным количеством компонентов, осуществляя выборки по такому количеству; приближенное распределение апостериорных вероятностей для количества заданных гауссовых распределений определяется частотами выборки в процессе применения алгоритма МСМС.
До сих пор рассматриваемый процесс обучения состоял из внешнего цикла, который представлял собой процесс поиска структуры, и внутреннего цикла, представляющего собой процесс оптимизации параметров. В случае полных данных внутренний цикл выполняется очень быстро, поскольку при этом достаточно лишь извлечь информацию об условных частотах из набора данных. Если же имеются скрытые переменные, то для выполнения внутреннего цикла может потребоваться применить много итераций алгоритма ЕМ или алгоритма на основе градиента, а каждая итерация потребует вычисления распределений апостериорных вероятностей в байесовской сети, что само представляет собой NP-трудную задачу. К настоящему времени доказано, что такой подход является практически не применимым для определения в процессе обучения сложных моделей. Одно из возможных усовершенствований состоит в использовании так называемого алгоритма структурного ЕМ, который действует во многом таким же образом, как и обычный (параметрический) алгоритм ЕМ, за исключением того, что этот алгоритм может обновлять не только параметры, но и структуру. Так же как в обычном алгоритме ЕМ используются текущие параметры для вычисления ожидаемых количеств в Е-шаге, а затем эти количества применяются в М-шаге для выбора новых параметров, так и в алгоритме структурного ЕМ используется структура для вычисления ожидаемых количеств, после чего эти количества применяются в М-шаге для оценки правдоподобия потенциальных новых структур (в этом состоит отличие данного метода от метода внешнего цикла/внутреннего цикла, в котором вычисляются новые ожидаемые количества для каждой потенциальной структуры). Таким образом, структурный алгоритм ЕМ позволяет вносить в сеть несколько структурных изменений без каких-либо повторных вычислений ожидаемых количеств и обладает способностью определять в процессе обучения нетривиальные структуры байесовских сетей. Тем не менее необходимо проделать еще очень много работы, прежде чем можно будет утверждать, что задача определения структуры в процессе обучения окончательно решена.
До сих пор приведенное в данной главе описание статистического обучения сосредоточивалось в основном на задаче подгонки параметров ограниченного семейства вероятностных моделей к неограниченному набору данных. Например, в методе неконтролируемой кластеризации используются смешанные гауссовы распределения на основании того предположения, что структуру рассматриваемых данных можно объяснить, трактуя их как сумму постоянного количества гауссовых распределений. Авторы настоящей книги называют такие методы параметрическим обучением. Методы параметрического обучения часто бывают простыми и эффективными, но предположение о том, что в данных воплощено конкретное ограниченное семейство моделей, часто слишком упрощает то, что происходит в реальном мире, из которого поступают эти данные. Верно, что при наличии очень малого объема данных нельзя надеяться определить в процессе обучения параметры сложной и подробной модели, но представляется неразумным по-прежнему придерживаться гипотезы с той же фиксированной сложностью, даже после того, как доступный набор данных становится очень большим!
В отличие от параметрического обучения, методы непараметрического обучения позволяют увеличивать сложность гипотезы по мере роста объема данных. Чем больше данных поступает в распоряжение исследователя, тем более развитой может становиться гипотеза. В данном разделе рассматриваются два очень простых семейства методов не параметрического обучения на основе экземпляра (или обучения на основе содержимого памяти), получивших такое название потому, что они позволяют конструировать гипотезы непосредственно на основе самих обучающих экземпляров.







Материалы

Яндекс.Метрика