БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

В ранние годы развития искусственного интеллекта приложения статистических методов обучения были активной областью исследований [421], но отделились от основного направления искусственного интеллекта после того, как работы в этом направлении сосредоточились на символических методах. Тем не менее исследования статистических методов обучения продолжались в различных формах (часть которых явно относилась к вероятностным, а другая — нет) в таких областях, как распознавание образов [394] и информационный поиск [1347]. Возрождение всеобщего интереса к этой теме началось вскоре после появления моделей байесовских сетей в конце 1980-х годов; приблизительно в то же время начала формироваться статистическая научная трактовка процесса обучения нейронных сетей. В конце 1990-х годов произошло заметное пробуждение интереса к машинному обучению, статистике и нейронным сетям и значительные усилия были сосредоточены на разработке методов создания больших вероятностных моделей на основе данных.
Наивная байесовская модель представляет собой одну из самых старых и наиболее простых форм байесовской сети, которая была впервые описана в 1950-х годах. О том, каково происхождение этой модели, упоминалось в заметках в конце главы 13; частичное описание этой темы приведено в [402]. Программа на основе усиленной формы наивного байесовского обучения стала победителем первого соревнования по интеллектуальному анализу данных на кубок KDD Сир [435]. В [641] приведено превосходное введение в общую проблему обучения байесовской сети. Определение параметров байесовской сети с помощью распределений априорных вероятностей Дирихле для байесовских сетей рассматривалось в [1450]. Многие из этих идей были реализованы в программном пакете Bugs [555], который представляет собой очень мощное инструментальное средство для формулировки и обучения сложных вероятностных моделей. В первых алгоритмах для определения в процессе обучения структур байесовских сетей использовались проверки условной независимости [1191], [1193]. В [1452] разработан исчерпывающий подход и описан пакет Tetrad для обучения байесовских сетей на основе аналогичных идей. Достигнутые с тех пор усовершенствования алгоритмов стали причиной убедительной победы метода обучения байесовской сети в соревновании по интеллектуальному анализу данных на кубок KDD Сир 2001 года [248]. (На этих соревнованиях рассматривалась конкретная задача из биоинформатики с 139351 характеристикой!) Подход к определению в процессе обучения структуры сети, основанный на учете максимального правдоподобия, был разработан Купером и Херсковицем [292] и усовершенствован Хекерманом и др. [642]. В [507] указано на то, какое влияние оказывает способ представления локальных распределений условных вероятностей на структуру, определяемую в процессе обучения.
Общая задача определения в процессе обучения параметров вероятностных моделей со скрытыми переменными и недостающими данными была решена с помощью алгоритма ЕМ, предложенного Демпстером [383], который представляет собой обобщение нескольких существующих методов, включая алгоритм Баума-Уэлша для обучения скрытых марковских моделей [85]. (Сам Демпстер рассматривал ЕМ скорее как схему, а не как алгоритм, поскольку может потребоваться большой объем математической работы, прежде чем появится возможность применить подход на основе ЕМ к новому семейству распределений.) В настоящее время ЕМ представляет собой один из алгоритмов, наиболее широко используемых в науке, а Маклахлан и Кришнан посвятили этому алгоритму и его свойствам целую книгу [1030]. Конкретная задача определения в процессе обучения параметров моделей на основе смешанных распределений, включая смешанные гауссовы распределения, рассматривается в [1509]. В рамках искусственного интеллекта первой успешной системой, в которой использовался алгоритм ЕМ для моделирования смешанных распределений, была система Autoclass [245], [246]. Система Autoclass применялась для решения многих реальных задач научной классификации, включая открытие новых типов звезд на основе спектральных данных [567] и новых классов белков и интронов в базах данных последовательностей ДНК/белок [708].
Алгоритм ЕМ для обучения байесовских сетей со скрытыми переменными был разработан Лауритценом [892]. Наряду с этим свою эффективность при обучении байесовских сетей, а также динамических байесовских сетей показали методы на основе градиента [1326], [126]. Структурный алгоритм ЕМ был разработан Фридманом [506]. Способность к определению в процессе обучения структуры байесовских сетей тесно связана с проблемой извлечения причинной информации из данных. Эта проблема сводится к поиску ответа на вопрос о том, существует ли возможность определять в процессе обучения структуру байесовских сетей таким образом, чтобы полученная структура сети демонстрировала реальные причинные связи? В течение многих лет статистики избегали анализа этого вопроса, считая, что данные самих наблюдений (в отличие от данных, выработанных в результате экспериментальных попыток) могут предоставить только информацию о корреляции; в конце концов, любые две переменные, которые кажутся взаимосвязанными, могут в действительности испытывать влияние третьего, неизвестного причинного фактора, а не влиять друг на друга непосредственно. Перл [1192] представил убедительные доводы, опровергающие это мнение, и показал, что фактически возникает много ситуаций, в которых причинно-следственные связи можно подтвердить и выявить с помощью формальных средств причинной сети для выражения причин и результатов вмешательства, а также обычных условных вероятностей.
Истоки моделей с использованием ближайших соседних точек прослеживаются по меньшей мере до работы Фикса и Ходжеса [474] и со времени ее появления такие модели считаются стандартным инструментом в статистике и распознавании образов. В искусственном интеллекте они нашли широкое применение под влиянием работы Стенфилла и Вальца [1457], которые исследовали методы адаптирования метрики расстояния к данным. Хасти и Тибширани [628] разработали способ локализации метрики применительно к каждой точке пространства в зависимости от распределения данных вокруг этой точки. Эффективные схемы индексации для поиска ближайших соседних точек исследовались в сообществе специалистов по алгоритмам (см., например, [715]). Оценки плотности ядра, называемые также оценками плотности окна Парцена, были первоначально исследованы Розенблаттом [1305] и Парценом [1178]. С тех пор было опубликовано огромное количество научных работ с результатами исследований свойств различных средств оценки. Исчерпывающее введение в эту тему приведено в [393].
Объем литературы по нейронным сетям слишком велик (до настоящего времени опубликовано примерно 100 ООО статей), чтобы всю ее можно было подробно рассмотреть в настоящем разделе. В [299], [300] приведен краткий обзор ранней истории этого направления, начиная с работы Мак-Каллока и Питтса [1017]. В сотрудничестве с Мак-Калл оком и Питтсом работал Норберт Винер, основатель кибернетики и теории управления [1589], который оказал значительное влияние на дальнейшую деятельность многих молодых исследователей, включая Марвина Минского. По-видимому, именно Минский был первым, кто разработал действующую нейронную сеть на основе аппаратных средств; это произошло в 1951 году (см. [1055, с. ix-x]). Между тем в Великобритании У. Росс Эшби (также один из основателей кибернетики; см. [42]), Алан Тьюринг, Грей Уолтер и другие основали клуб Ratio (клуб Разума) для "тех, кто был носителем идей Винера еще до появления книги Винера". В книге Эшби Design for а Brain [43], [44] выдвинута идея, что интеллект можно создать с использованием гомеостатических устройств, реализующих соответствующие циклы обратной связи для достижения стабильного адаптивного поведения. Тьюринг [1519] написал исследовательский отчет с заглавием Intelligent Machinery, который начинается со слов "Я предлагаю исследовать вопрос о том, может ли машина проявлять интеллектуальное поведение" и продолжается в виде описания архитектуры рекуррентной нейронной сети, названной Тьюрингом "неорганизованными машинами В-типа", и подхода к обучению этих машин. К сожалению, этот отчет оставался неопубликованным до 1969 года и его содержание почти полностью игнорировалось до недавнего времени.
Фрэнк Розенблатт [1302] изобрел современный "персептрон" и доказал теорему сходимости персептрона [1303], хотя его работы оставались в тени чисто математических исследований, выполненных вне контекста нейронных сетей [6], [1093]. Кроме того, некоторые ранние работы в области нейронных сетей были посвящены многослойным сетям, включая персептроны Гамба [517] и мадалины [1586]. В книге Learning Machines [1140] рассматриваются многие из этих ранних работ, а также другие интересные темы. В дальнейшем, в этот ранний период исследований персептронов, интерес к этой теме упал под влиянием книги Perceptrons [1054], авторы которой посетовали на отсутствие математической строгости в этой области (но сами авторы в последующем заявили, что они в своей книге просто объяснили причины этого падения интереса). В данной книге указано, что однослойные персептроны способны представить только линейно разделимые понятия, и отмечено отсутствие эффективных алгоритмов обучения для многослойных сетей.
Как свидетельство возрождения интереса к коннекционизму могут рассматриваться статьи в сборнике, выпущенном по материалам конференции в Сан-Диего в 1979 году [655]. Большое внимание исследователей привлекла двухтомная антология PDP (Parallel Distributed Processing — параллельная распределенная обработка) [1316] и короткая статья в журнале Nature [1317]; фактически количество статей по "нейронным сетям" за период между 1980—1984 и 1990—1994 гг. увеличилось в 200 раз. Анализ нейронных сетей с использованием физической теории магнитных спиновых стекол, приведенный в [26], упрочил связи между статистической механикой и теорией нейронных сетей, предоставляя последнему научному направлению не только полезные математические основы, но и научную респектабельность. Метод обратного распространения был изобретен довольно рано [201], но затем был забыт и снова открыт еще несколько раз [1175], [1579].
Машины поддерживающих векторов впервые были созданы в 1990-х годах [296], а теперь являются темой все более возрастающего количества литературных источников, включая такие учебники, как [309]. Было доказано, что эти машины могут стать очень широко применяемым и эффективным средством решения таких задач, как категоризация текста [738], исследования в области биоинформатики [194] и обработка естественного языка, в частности распознавание рукописных цифр [374]. К примерам связанных с ними методов, в которых также используется "фокус с ядерными функциями" для неявного представления экспоненциального пространства характеристик, относится персептрон с голосованием [283].
Тема вероятностной интерпретации нейронных сетей рассматривалась в нескольких источниках, включая [84] и [185]. Роль сигмоидальной функции описана в [745]. Метод байесовского обучения параметрам для нейронных сетей был предложен Маккеем [965], а его дальнейшее исследование проведено Нилом [1118]. Способность нейронных сетей представлять функции была исследована Цыбенко [316], [317], который показал, что двух скрытых слоев достаточно для представления любой функции, а одного скрытого слоя достаточно для представления любой непрерывной функции. Метод "оптимального повреждения мозга", предназначенный для удаления бесполезных связей, изложен в [903], а в [1409] показано, как удалять ненужные элементы. Алгоритм заполнения мозаики, предназначенный для наращивания размеров структур, предложен в [1037]. В [904] приведен обзор целого ряда алгоритмов распознавания рукописных цифр. С тех пор были опубликованы сведения о достигнутых успехах в области уменьшения частоты ошибок в [98] с помощью алгоритма согласования с формой и в [374] — с помощью алгоритма для виртуальных поддерживающих векторов.
Проблемы сложности обучения нейронных сетей рассматривались исследователями, занимающимися теорией вычислительного обучения. Первые вычислительные результаты были получены Джаддом [753], который показал, что общая задача поиска множества весов, совместимых с множеством примеров, является NP-полной, даже при очень ограничительных предположениях. Некоторые из первых результатов, касающихся выборочной сложности, были получены Баумом и Хаусслером [82], которые показали, что количество примеров, требуемых для эффективного обучения, растет примерно пропорционально WlogW, где W— количество весов16. С тех пор была разработана гораздо более совершенная теория [34], в том числе получен важный результат, показывающий, что репрезентативная способность сети зависит не только от количества весов, но и от их величины.
Наиболее широко применяемой разновидностью нейронных сетей из тех, которые не рассматривались в данной книге, является сеть с радиальной базисной функцией, или сокращенно RBF (Radial Basis Function). В радиальной базисной функции объединяется взвешенная коллекция ядерных функций (разумеется, обычно гауссовых распределений) для осуществления функциональной аппроксимации. Обучение сетей RBF может проводиться в два этапа: вначале с помощью подхода на основе неконтролируемой кластеризации происходит определение в процессе обучения параметров гауссовых распределений (математических ожиданий и дисперсий), как описано в разделе 20.3. На втором этапе определяются относительные веса гауссовых распределений. Они составляют систему линейных уравнений, которые, как известно, можно решить непосредственно. Поэтому два этапа обучения RBF предоставляют важное преимущество: первый этап является неконтролируемым, и поэтому для него не требуются размеченные обучающие данных, а второй этап, хотя и контролируемый, характеризуется высокой эффективностью. Подробные сведения приведены в [133].
В этой главе упоминались, но подробно не рассматривались рекуррентные сети. По-видимому, наиболее изученным классом рекуррентных сетей являются сети Хопфилда [674]. В них используются двунаправленные связи с симметричными весами (т.е. элементы с Wiij = Wjti), все элементы являются одновременно входными и выходными, функция активации, д, представляет собой знаковую функцию, а уровни активации могут принимать только значения ±1. Сеть Хопфилда функционирует как ассоциативная память: после обучения сети на множестве примеров новый стимул вызывает установление в сети образа активации, соответствующего тому примеру в обучающем множестве, который наиболее близко напоминает этот новый стимул. Например, если обучающее множество состоит из набора фотографий и новым стимулом является небольшой фрагмент одной из фотографий, то уровни активации сети воспроизводят фотографию, из которой был взят этот фрагмент. Следует отметить, что оригинальные фотографии не хранятся отдельно в сети; каждый вес представляет собой результат частичного кодирования всех фотографий. Одним из наиболее интересных теоретических результатов является то, что сети Хопфилда могут надежно хранить вплоть до 0,138 iV обучающих примеров, где N— количество элементов в сети.
В машинах Больцмана [657], [658] также используются симметричные веса, но предусматриваются скрытые элементы. Кроме того, в них применяется стохастическая функция активации, такая что вероятность появления на выходе 1 определяется некоторой функцией от общего взвешенного входа. Поэтому машины Больцмана подвержены переходам между состояниями, которые напоминают поиск с эмуляцией отжига (см. главу 4), применительно к конфигурации, которая наилучшим образом аппроксимирует обучающее множество. Как оказалось, машины Больцмана очень тесно связаны с частным случаем байесовских сетей, оценка параметров которых осуществляется с помощью алгоритма стохастического моделирования (см. раздел 14.5).
Первое приложение идей, лежащих в основе ядерных машин, было разработано Айзерманом и др. [11], но полная разработка теории этих машин под названием машин поддерживающих векторов была выполнена Владимиром Вапником и его коллегами [156], [1537]. Строгие введения в эту тематику приведены в [309] и [1364]; описание, более удобное для чтения, приведено в статье для журнала AI Magazine, написанной Кристианини и Шёлкопфом [308].
В материалах этой главы собраны вместе работы из области статистики, распознавания образов и нейронных сетей, поэтому излагаемые в ней сведения были освещены в литературе много раз многими способами. К хорошим учебникам по байесовской статистике относятся [101], [377] и [534]. В [629] приведено превосходное введение в методы статистического обучения. Классическим учебником по классификации образов в течение многих лет была книга [421], которая недавно была переиздана в обновленном виде [422]. Ведущими учебниками по нейронным сетям являются [133] и [1290]. Область вычислительной неврологии рассматривается в [339]. Наиболее важной конференцией по нейронным сетям и относящимся к ним темам является ежегодная конференция NIPS (Neural Information Processing Conference), труды которой публикуются в виде серии Advances in Neural Information Processing Systems. Статьи по обучению байесовских сетей появляются также в трудах конференций Uncertainty in AIw Machine Learning, а также нескольких конференций по статистике. К числу журналов, посвященных нейронным сетям, относятся Neural Computation, Neural Networks и IEEE Transactions on Neural Networks.

Искусственный интеллект. Современный подход

БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ

Материалы

Разделы