НЕЙРОННЫЕ СЕТИ

Нейрон — это клетка мозга или нервной системы, основной функцией которой является сбор, обработка и распространение электрических сигналов. Схематическое изображение типичного нейрона приведено на рис. 1.1 (см. с. 48). Считается, что способность мозга к обработке информации в основном обусловлена функционированием сетей, состоящих из таких нейронов. По этой причине целью некоторых из самых ранних работ по искусственному интеллекту было создание искусственных нейронных сетей (эта область научной деятельности упоминалась также под другими названиями, включая коннекционизм, параллельная распределенная обработка и нейронные вычисления). На рис. 20.15 показана простая математическая модель нейрона, предложенная Мак-Калл оком и Питтсом [1017]. Грубо говоря, нейрон "активизируется", когда линейная комбинация значений на его входах превышает некоторый порог. Начиная с 1943 года были разработаны гораздо более подробные и реалистичные модели как для нейронов, так и для более крупных систем в мозгу, что привело к созданию такой современной научной области, как вычислительная неврология. С другой стороны, у исследователей в области искусственного интеллекта и статистики пробудился интерес к изучению более абстрактных свойств нейронных сетей, таких как способность выполнять распределенные вычисления, справляться с зашумленными входными данными и обеспечивать обучение. Хотя со временем стало ясно, что подобные возможности предоставляют и другие системы (включая байесовские сети), нейронные сети остаются одной из наиболее широко применяемых и эффективных форм систем обучения и сами по себе могут стать важным предметом для изучения.
Элементы в нейронных сетях
Нейронные сети состоят из узлов, или элементов (см. рис. 20.15), соединенных направленными связями. Связь от элемента j к элементу i служит для распространения активации а от j к i. Кроме того, каждая связь имеет назначенный ей числовой вес Wii9 который определяет силу и знак связи. Каждый элемент i прежде всего вычисляет взвешенную сумму своих входных данных:
Затем он применяет к этой сумме функцию активации д, чтобы определить, какими должны быть выходные данные:
Обратите внимание на то, что в эту формулу входит смещенный вес w0>i, относящийся к постоянному входному значению а0=-1. Роль, которую играет эта величина, будет описана немного позже.
Функция активации д предназначена для выполнения двух назначений. Во-первых, необходимо, чтобы элемент был "активным" (находился на уровне активации примерно + 1) при наличии "правильных" входных данных и "неактивным" (с уровнем активации, близким к 0) при получении "неправильных" входных данных. Во-вторых, функция активации должна быть нелинейной, поскольку в противном случае произойдет сворачивание всех функций активации нейронной сети в простую линейную функцию (см. упр. 20.17). Два варианта формы функции активации д показаны на рис. 20.16— пороговая функция и сигмоидальная функция (называемая также логистической функцией). Преимуществом сигмоидальной функции является то, что она дифференцируема, а это, как показано ниже, — важное свойство для алгоритма обучения с учетом весов. Обратите внимание на то, что обе функции имеют пороговое значение (либо жесткое, либо мягкое) около нуля; смещенный вес w0ii задает фактическое пороговое значение для данного элемента в том смысле, что элемент активизируется после того, как взвешенная сумма "реальных" входных данных
Представление о том, как работают отдельные элементы, можно получить, сравнив их с логическими элементами. Одной из первоначальных причин, по которым исследователи занялись проектированием отдельных элементов [1017], была способность элементов представлять основные булевы функции. На рис. 20.17 показано, как можно представить булевы функции AND, OR и NOT с помощью пороговых элементов, входам которых назначены подходящие веса. Такое свойство является важным, поскольку оно означает, что эти элементы можно использовать для создания сети, обеспечивающей вычисление любой булевой функции от входных данных.







Материалы

Яндекс.Метрика