Структуры сетей

Существуют две основные категории структур нейронных сетей: ациклические сети, или сети с прямым распространением, и циклические, или рекуррентные, сети. Сеть с прямым распространением представляет определенную функцию ее текущих входных данных, поэтому не имеет внутреннего состояния, отличного от самих весов. Рекуррентная сеть, с другой стороны, подает свои выходные данные обратно на свои собственные входы. Это означает, что уровни активации сети образуют динамическую систему, которая может достигать устойчивого состояния, или переходить в колебательный режим, или даже проявлять хаотичное поведение. Более того, отклик сети на конкретные входные данные зависит от ее начального состояния, которое, в свою очередь, может зависеть от предыдущих входных данных. Поэтому рекуррентные сети (в отличие от сетей с прямым распространением) могут моделировать кратковременную память. Это означает, что они являются более интересными объектами для использования в качестве моделей мозга, но вместе с тем являются более трудными для понимания. В данном разделе в основном рассматриваются сети с прямым распространением; некоторые указания на источники для дополнительного чтения по рекуррентным сетям приведены в конце данной главы.
Проанализируем более внимательно утверждение о том, что сеть с прямым распространением представляет функцию от ее входных данных. Рассмотрим простую сеть, показанную на рис. 20.18, которая состоит из входных элементов, двух скрытых элементов и одного выходного элемента (чтобы упростить рассматриваемую схему, в данном примере удалены элементы, на которые подается смещение). Если задан вектор входных данных х= (х1г х2), активации входных элементов принимают вид (а1;а2) = (х1,х2),а сеть вычисляет следующее значение:
<35 = <7( Й/З, 5<3з + 4,5<34/
= дШъ.ъдШг.ъаг + W2lza2) + WtgiWxax + W2a2)) (20.11)
Таким образом, выразив выходное значение каждого скрытого элемента как функцию его входных значений, мы показали, что выход всей сети, а5, является функцией от ее входов. Кроме того, мы показали, что веса в сети действуют как параметры этой функции; если применить запись w для обозначения параметров, то можно утверждать, что сеть вычисляет функцию hw(x). Корректируя веса, можно изменять функцию, представленную сетью. Именно так происходит обучение в нейронных сетях.
Нейронная сеть может использоваться для классификации или регрессии. Для булевой классификации с непрерывными выходными данными (например, формируемыми с помощью сигмоидальных элементов) обычно принято применять один выходной элемент, в котором значение, превышающее 0.5, интерпретируется как принадлежащее к одному классу, а значение ниже 0.5 — как принадлежащее к другому. Для Тс-сторонней классификации можно разделить диапазон одного выходного элемента на к частей, но чаще используется структура сети с к отдельными выходными элементами, притом что значение на каждом из них представляет относительное правдоподобие конкретного класса на основании текущих входных данных.
Сети с прямым распространением обычно размещаются по слоям, таким, что каждый элемент получает входные данные только от элементов, относящихся к непосредственно предшествующему слою. В следующих двух подразделах рассматриваются однослойные сети, не имеющие скрытых элементов, и многослойные сети, которые имеют один или несколько слоев скрытых элементов.







Материалы

Яндекс.Метрика