Алгоритм обратного распространения

Одной из наиболее известных структур НС является полносвязная. Когда в сети только один слой, алгоритм ее обучения с учителем довольно очевиден, так как правильные выходные состояния нейронов единственного слоя заведомо известны, и подстройка синаптических связей идет в направлении, минимизирующем ошибку на выходе сети. По этому принципу строится, например, алгоритм обучения однослойного перцептрона. В многослойных же сетях оптимальные выходные значения нейронов всех слоев, кроме последнего, как правило, не известны, и двух или более слойный перцептрон уже невозможно обучить, руководствуясь только величинами ошибок на выходах НС.

Распространение сигналов ошибки от выходов НС к ее входам, в направлении, обратном прямому распространению сигналов в обычном режиме работы. Этот алгоритм обучения НС получил название процедуры обратного распространения (Backpropagation, BP). Согласно методу наименьших квадратов, минимизируемой целевой функцией ошибки НС является величина:

, (1.8)

где – реальное выходное состояние нейрона j выходного слоя N нейронной сети при подаче на ее входы p-го образа; d_jp – идеальное (желаемое) выходное состояние этого нейрона.

Суммирование ведется по всем нейронам выходного слоя и по всем обрабатываемым сетью образам. Минимизация ведется методом градиентного спуска, что означает подстройку весовых коэффициентов следующим образом:

. (1.9)

Здесь w_ij – весовой коэффициент синаптической связи, соединяющей i-ый нейрон слоя n-1 с j-ым нейроном слоя n, h – коэффициент скорости обучения, 0<h<1.

Можно представить

. (1.10)

Здесь под y_j, как и раньше, подразумевается выход нейрона j, а под s_j – взвешенная сумма его входных сигналов, то есть аргумент активационной функции. Так как множитель dy_j/ds_j является производной этой функции по ее аргументу, из этого следует, что производная активационной функции должна быть определена на всей оси абсцисс. В связи с этим функция единичного скачка и прочие активационные функции с неоднородностями не подходят для рассматриваемых НС. В них применяются такие гладкие функции, как гиперболический тангенс или классический сигмоид с экспонентой.

Третий множитель ¶s_j/¶w_ij, очевидно, равен выходу нейрона предыдущего слоя y_i^(n-1). Для первого множителя в (1.10), имеем:

. (1.11)

Здесь суммирование по k выполняется среди нейронов слоя n+1. Вводя новую переменную

(1.12)

получим рекурсивную формулу для расчетов величин d_j⁽ⁿ⁾ слоя n из величин d_k⁽ⁿ⁺¹⁾ более старшего слоя n+1

. (1.13)

Для выходного же слоя имеем

. (1.14)

Теперь можем записать (1.9) в виде:

. (1.15)

Иногда для придания процессу коррекции весов некоторой инерционности, сглаживающей резкие скачки при перемещении по поверхности целевой функции, (1.15) дополняется значением изменения веса на предыдущей итерации

, (1.16)

где m – коэффициент инерционности, t – номер текущей итерации.

Таким образом, полный алгоритм обучения НС с помощью процедуры обратного распространения строится так:

1. Подать на входы сети один из возможных образов и в режиме обычного функционирования НС, когда сигналы распространяются от входов к выходам, рассчитать значения последних. Напомним, что

где M – число нейронов в слое n-1 с учетом нейрона с постоянным выходным состоянием +1, задающего смещение; y_i^(n-1)=x_ij⁽ⁿ⁾ – i-ый вход нейрона j слоя n

y_j⁽ⁿ⁾ = f(s_j⁽ⁿ⁾), y_q⁽⁰⁾=I_q,

где I_q – q-ая компонента вектора входного образа.

2. Рассчитать d^(N) для выходного слоя по формуле (1.13). Рассчитать по формуле (1.14) или (1.15) изменения весов Dw⁽^N) слоя N.

3. Рассчитать по формулам (1.12) и (1.14) (или (1.12) и (1.15)) соответственно d⁽ⁿ⁾ и Dw⁽ⁿ⁾ для всех остальных слоев, n=N-1,...,1.

4. Скорректировать все веса в НС

5. Если ошибка сети существенна, перейти на шаг 1. Иначе – конец.

На шаге 1 попеременно в случайном порядке сети предъявляются все тренировочные образы, чтобы сеть, образно говоря, не забывала одни по мере запоминания других. Алгоритм иллюстрируется рис. 1.12.

Из выражения (1.15) следует, что когда выходное значение y_i^(n-1) стремится к нулю, эффективность обучения заметно снижается. При двоичных входных векторах в среднем половина весовых коэффициентов не будет корректироваться, поэтому область возможных значений выходов нейронов [0,1] желательно сдвинуть в пределы [-0.5,+0.5], что достигается простыми модификациями логистических функций.

Например, сигмоид с экспонентой преобразуется к виду

Рассматриваемая НС имеет несколько "узких мест". Во-первых, в процессе обучения может возникнуть ситуация, когда большие положительные или отрицательные значения весовых коэффициентов сместят рабочую точку на сигмоидах многих нейронов в область насыщения. Малые величины производной от логистической функции приведут к остановке обучения, что парализует НС.

Рис.1.12. Диаграмма сигналов в сети при обучении по алгоритму обратного распространения

Во-вторых, применение метода градиентного спуска не гарантирует, что будет найден глобальный, а не локальный минимум целевой функции. Эта проблема связана еще с одной, а именно – с выбором величины скорости обучения. Доказательство сходимости обучения в процессе обратного распространения основано на производных, то есть приращения весов и, следовательно, скорость обучения должны быть бесконечно малыми, однако в этом случае обучение будет происходить неприемлемо медленно. С другой стороны, слишком большие коррекции весов могут привести к постоянной неустойчивости процесса обучения. Поэтому в качестве h обычно выбирается число меньше 1, но не очень маленькое, например, 0.1, и оно, вообще говоря, может постепенно уменьшаться в процессе обучения. Кроме того, для исключения случайных попаданий в локальные минимумы иногда, после того как значения весовых коэффициентов застабилизируются, h кратковременно сильно увеличивают, чтобы начать градиентный спуск из новой точки. Если повторение этой процедуры несколько раз приведет алгоритм в одно и то же состояние НС, можно более или менее уверенно сказать, что найден глобальный максимум, а не какой-то другой.

<4 5 678 9 10 >

Дата добавления: 2015-09-18; просмотров: 1513;