Определение с помощью обучения структур байесовских сетей со скрытыми переменными

В разделе 20.2 обсуждалась задача определения с помощью обучения структур байесовских сетей на основе полных данных. А если приходится учитывать скрытые переменные, то задача осложняется. В простейшем случае скрытые переменные могут быть включены в общий список наряду с наблюдаемыми переменными; хотя их значения не наблюдаются, алгоритм обучения получает сведения о том, что они существуют, и должен найти для них место в структуре сети. Например, с помощью алгоритма может быть предпринята попытка определить в процессе обучения структуру, показанную на рис. 20.7, а, на основе той информации, что в модель должна быть включена переменная HeartDisease (трехзначная переменная). Если же алгоритму обучения не предоставлена эта информация, то в процессе обучения возникают два варианта: либо исходить из того, что данные действительно являются полными (что вынуждает алгоритм определить в процессе обучения модель с гораздо большим количеством параметров, показанную на рис. 20.7, б), либо изобрести новые скрытые переменные для упрощения модели. Последний подход можно реализовать путем включения новых вариантов операций модификации в процедуру поиска структуры — предусмотреть в алгоритме возможность не только модифицировать связи, но и добавлять или удалять скрытые переменные либо менять их арность. Безусловно, в таком алгоритме нельзя предусмотреть возможность назвать вновь изобретенную переменную, допустим HeartDisease, а также присваивать ее значениям осмысленные имена. Но, к счастью, вновь изобретенные скрытые переменные обычно связываются с ранее существовавшими переменными, поэтому человек — специалист в данной проблемной области часто может проверять локальные распределения условных вероятностей, касающиеся новой переменной, и устанавливать ее смысл.
Как и в случае полных данных, процесс определения структуры с помощью обучения с учетом максимального правдоподобия в чистом виде приводит к созданию полносвязной сети (более того, сети без скрытых переменных), поэтому требуется ввести какую-то форму штрафования за сложность. Для аппроксимации байесовского обучения можно также применить алгоритм МСМС. Например, можно предусмотреть определение в процессе обучения параметров смешанного гауссова распределения с неизвестным количеством компонентов, осуществляя выборки по такому количеству; приближенное распределение апостериорных вероятностей для количества заданных гауссовых распределений определяется частотами выборки в процессе применения алгоритма МСМС.
До сих пор рассматриваемый процесс обучения состоял из внешнего цикла, который представлял собой процесс поиска структуры, и внутреннего цикла, представляющего собой процесс оптимизации параметров. В случае полных данных внутренний цикл выполняется очень быстро, поскольку при этом достаточно лишь извлечь информацию об условных частотах из набора данных. Если же имеются скрытые переменные, то для выполнения внутреннего цикла может потребоваться применить много итераций алгоритма ЕМ или алгоритма на основе градиента, а каждая итерация потребует вычисления распределений апостериорных вероятностей в байесовской сети, что само представляет собой NP-трудную задачу. К настоящему времени доказано, что такой подход является практически не применимым для определения в процессе обучения сложных моделей. Одно из возможных усовершенствований состоит в использовании так называемого алгоритма структурного ЕМ, который действует во многом таким же образом, как и обычный (параметрический) алгоритм ЕМ, за исключением того, что этот алгоритм может обновлять не только параметры, но и структуру. Так же как в обычном алгоритме ЕМ используются текущие параметры для вычисления ожидаемых количеств в Е-шаге, а затем эти количества применяются в М-шаге для выбора новых параметров, так и в алгоритме структурного ЕМ используется структура для вычисления ожидаемых количеств, после чего эти количества применяются в М-шаге для оценки правдоподобия потенциальных новых структур (в этом состоит отличие данного метода от метода внешнего цикла/внутреннего цикла, в котором вычисляются новые ожидаемые количества для каждой потенциальной структуры). Таким образом, структурный алгоритм ЕМ позволяет вносить в сеть несколько структурных изменений без каких-либо повторных вычислений ожидаемых количеств и обладает способностью определять в процессе обучения нетривиальные структуры байесовских сетей. Тем не менее необходимо проделать еще очень много работы, прежде чем можно будет утверждать, что задача определения структуры в процессе обучения окончательно решена.
До сих пор приведенное в данной главе описание статистического обучения сосредоточивалось в основном на задаче подгонки параметров ограниченного семейства вероятностных моделей к неограниченному набору данных. Например, в методе неконтролируемой кластеризации используются смешанные гауссовы распределения на основании того предположения, что структуру рассматриваемых данных можно объяснить, трактуя их как сумму постоянного количества гауссовых распределений. Авторы настоящей книги называют такие методы параметрическим обучением. Методы параметрического обучения часто бывают простыми и эффективными, но предположение о том, что в данных воплощено конкретное ограниченное семейство моделей, часто слишком упрощает то, что происходит в реальном мире, из которого поступают эти данные. Верно, что при наличии очень малого объема данных нельзя надеяться определить в процессе обучения параметры сложной и подробной модели, но представляется неразумным по-прежнему придерживаться гипотезы с той же фиксированной сложностью, даже после того, как доступный набор данных становится очень большим!
В отличие от параметрического обучения, методы непараметрического обучения позволяют увеличивать сложность гипотезы по мере роста объема данных. Чем больше данных поступает в распоряжение исследователя, тем более развитой может становиться гипотеза. В данном разделе рассматриваются два очень простых семейства методов не параметрического обучения на основе экземпляра (или обучения на основе содержимого памяти), получивших такое название потому, что они позволяют конструировать гипотезы непосредственно на основе самих обучающих экземпляров.

Материалы

Обучение списков решений

Обсуждение полученных результатов

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ПРИМЕНЕНИЕ ЗНАНИЙ В ОБУЧЕНИИ

Примеры и гипотезы

Поиск текущей наилучшей гипотезы

Применение знаний в обучении

Поиск на основе оценки наименьшего вклада

ПРИМЕНЕНИЕ ЗНАНИЙ В ОБУЧЕНИИ

Некоторые простые примеры

ОБУЧЕНИЕ НА ОСНОВЕ ОБЪЯСНЕНИЯ

Извлечение общих правил из примеров

Повышение эффективности правила

Определение пространства гипотез

Обучение и использование информации о релевантности

ИНДУКТИВНОЕ ЛОГИЧЕСКОЕ ПРОГРАММИРОВАНИЕ

Нисходящие методы индуктивного обучения

Индуктивное обучение с помощью обратной дедукции

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ

ОБУЧЕНИЕ С ПОМОЩЬЮ ПОЛНЫХ ДАННЫХ

Наивные байесовские модели

Обучение байесовским параметрам

Определение путем обучения структур байесовских сетей

ОБУЧЕНИЕ С ПОМОЩЬЮ СКРЫТЫХ ПЕРЕМЕННЫХ: АЛГОРИТМ ЕМ

Неконтролируемая кластеризация: определение в процессе обучения смешанных гауссовых распределений

Обучение байесовских сетей со скрытыми переменными

Обучение скрытых марковских моделей

Общая форма алгоритма ЕМ

Определение с помощью обучения структур байесовских сетей со скрытыми переменными

ОБУЧЕНИЕ НА ОСНОВЕ ЭКЗЕМПЛЯРА

Ядерные модели

НЕЙРОННЫЕ СЕТИ

Структуры сетей

Однослойные нейронные сети с прямым распространением (персептроны)

Многослойные нейронные сети с прямым распространением

ЯДЕРНЫЕ МАШИНЫ

ПРАКТИЧЕСКИЙ ПРИМЕР: РАСПОЗНАВАНИЕ РУКОПИСНЫХ ЦИФР

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

УПРАЖНЕНИЯ

ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

ПАССИВНОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

Непосредственная оценка полезности

Адаптивное динамическое программирование

АКТИВНОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

ИССЛЕДОВАНИЕ СРЕДЫ И N-РУКИЕ БАНДИТЫ

ОБОБЩЕНИЕ В ОБУЧЕНИИ С ПОДКРЕПЛЕНИЕМ

Приложения методов обучения к ведению игр

Применение к управлению роботами

Разделы

Поцелуй по расчету
Поэма Содди
Задача о сферах
Многомерность
Гость из четвертого измерения
Четырехмерный симплекс
Возможности нового измерения
Эксперимент Цельнера
Геометрия - это интуиция
Ущербность нашего восприятия
Объем - в плоскость
Наш плоский объемный мир
Мебиусиана
Односторонность листа Мебиуса
Топология - из листа Мебиуса
Число Бетти
Хроматический номер
Справа, где сердце
Бутылка Клейна
Мебиус и микромир
Левый и Правый Мебиусы
Эксперимент By Цзянь-сюн
Двухкомпонентная теория нейтрино
Зеркальные двойники
Роль формы
Вселенная искривляется
Тензорный анализ
Теория Вселенной Эйнштейна
Пульс Вселенной
Великолепная пятерка
О божественной пропорции
«Начала» Евклида
Доказательство Эйлера
Символы Шлефли
Гамильтонова линия
Изопиранная задача
Интуиция царицы Дидоны
Как управляется мир
Серьезные игры
Искусство орнамента
Федоровские группы
Игры Эсхера
Симметрии Эсхера
Нефедоровская кристаллография
Мировая гармония
Удавшаяся провокация
«Колючий» ёж Кеплера
Фигура Петри
Теория многогранников
Правильные и почти правильные тела
Песок расширяется!
Кубическая плотная упаковка
Плотность упаковки
Дома на песке
Тайные связи
Музыка сфер
Подкупающая простота
Модели Дончияна
Полезные политопы
Организация пространства
Радость видеть и понимать
Теории Земли
Бейсбольный мяч планеты
Катенаны
Вечный Геометр
Цепь причин и следствий
Счастливый случай
Метод Монте-Карло
Вероятностные методы
Бросаем песчинку
Сходство схем
Задачи распространения тепла
Случайные траектории
Возможности равны
Случай в игре
Игры с таблицей
Новые осложнения
Хуже-лучше
Расшифровка кодов
Роль элемента случайности
Обучение и случайность
Обучение автоматов
«Школьная» схема обучения
Обучение — самообучение
Шаблон поведения
Уметь пользоваться памятью
Опыты И. П. Павлова
Условный рефлекс
Связь между нейронами
Носитель памяти
Механизм образования условного рефлекса
Механизм «вспоминания»
Структура нервной сети
Простой эксперимент
Проблема опознания
Что такое опознание
Зрительные образы
Персептрон
Различаемые образы
Что умеет персептрон
Свойства персептрона
Залог опознания образов
Роль случайности в эволюции
К чему приводят мутации
Естественный отбор
«Безжалостность» законов природы
Приспособление вида
Схема гомеостата
Идея Эшби
Усилитель отбора
Усилитель мыслительных способностей
Схема искусственного отбора
Самонастраивающиеся системы и случайность
Непохожесть систем
Критерий близости к совершенству
Самонастраивающиеся системы
Наладчик сложных систем
Метод компенсации
Как настроить
Устройство автомата
Держим точный размер
Анализ станка-автомата
Обратное воздействие
Способ Гаусса — Зейделя
Анализ настроек
Метод градиента
Метод случайной настройки
Метод случайного поиска
Программа случайного поиска
Схема случайного поиска
Самонастраивающаяся система
Источник неограниченных возможностей

Искусственный интеллект. Современный подход