КОДИРОВАНИЕ АССОЦИАЦИЙ

Обычно сеть обучается распознаванию множества образов. Обучение производится с использованием обучающего набора, состоящего из пар векторов A и B. Процесс обучения реализуется в форме вычислений; это означает, что весовая матрица вычисляется как сумма произведении всех векторных пар обучающего набора. B символьной форме

Предположим, что все запомненные образы представляют собой двоичные векторы. Это ограничение покажется менее строгим, если вспомнить, что все содержимое Библиотеки Конгресса может быть закодировано в один очень длинный двоичный вектор. В работе [11] показана возможность достижения более высокой производительности при использовании биполярных векторов. При этом векторная компонента, большая чем 0, становится +1, а компонента, меньшая или равная 0, становится –1.

Предположим, что требуется обучить сеть с целью запоминания трех пар двоичных векторов, причем векторы A_i имеют размерность такую же, как и векторы В_i. Надо отметить, что это не является необходимым условием для работы алгоритма; ассоциации могут быть сформированы и между векторами различной размерности.

Исходный вектор	Ассоциированный вектор	Бинарная версия
A₁ = (1,0,0)	B₁ = (0,0,1)	A’₁ = (1,–1,–1)	B’₁ = (–1,–1,1)
A₂ = (0,1,0)	B₂ = (0,1,0)	A’₁ = (–1,1,–1)	B’₁ = (–1,1,–1)
A₃ = (0,0,1)	B₃ = (1,0,0)	A’₁ = (–1,–1,1)	B’₁ = (1,–1,–1)

Вычисляем весовую матрицу

W = A’₁tB’₁+A’₂tB’₂+ A’₃tB’₃

–1

Далее прикладывая входной вектор А = (1,0,0), вычисляем выходной вектор О

O = A₁tW =(1,0,0) x		–1	=	(–1,–1,3)
–1		–1
	–1	–1

Используя пороговое правило

b_i = 1, если o_i > 0,

b_i = 0, если o_i < 0,

b_i = 0, не изменяется, если o_i = 0

вычисляем

B’₁ = (0,0,1),

что является требуемой ассоциацией. Затем, подавая вектор В’₁ через обратную связь на вход первого слоя к Wtполучаем

O = B’₁Wt=(0,0,1) x		–1	=	(3,–1,–1)
–1		–1
	–1	–1

что дает значение (1,0,0) после применения пороговой функции, образуя величину вектора A₁.

Этот пример показывает, как входной вектор A с использованием матрицы W производит выходной вектор B. В свою очередь вектор B с использованием матрицы Wtпроизводит вектор A, таким образом в системе формируется устойчивое состояние и резонанс.

ДАП обладает способностью к обобщению. Например, если незавершенный или частично искаженный вектор подается в качестве A, сеть имеет тенденцию к выработке запомненного вектора B, который в свою очередь стремится исправить ошибки в A. Возможно, для этого потребуется несколько проходов, но сеть сходится к воспроизведению ближайшего запомненного образа.

Системы с обратной связью могут иметь тенденцию к колебаниям; это означает, что они могут переходить от состояния к состоянию, никогда не достигая стабильности. В [9] доказано, что все ДАП безусловно стабильны при любых значениях весов сети. Это важное свойство возникает из отношения транспонирования между двумя весовыми матрицами и означает, что любой набор ассоциаций может быть изучен без риска возникновения нестабильности.

Существует взаимосвязь между ДАП и рассмотренными в гл. 6 сетями Хопфилда. Если весовая матрица W является квадратной и симметричной, тоW=Wt. В этом случае, если слои 1 и 2 являются одним и тем же набором нейронов, ДАП превращается в автоассоциативную сеть Хопфилда.

ЕМКОСТЬ ПАМЯТИ

Как и сети Хопфилда, ДАП имеет ограничения на максимальное количество ассоциаций, которые она может точно воспроизвести. Если этот лимит превышен, сеть может выработать неверный выходной сигнал, воспроизводя ассоциации, которым не обучена.

В работе [9] приведены оценки, в соответствии с которыми количество запомненных ассоциаций не может превышать количества нейронов в меньшем слое. При этом предполагается, что емкость памяти максимизирована посредством специального кодирования, при котором количество компонент со значениями +1 равно количеству компонент со значениями –1 в каждом биполярном векторе. Эта оценка оказалась слишком оптимистичной. Работа [13] по оценке емкости сетей Хопфилда может быть легко расширена для ДАП. Можно показать, что если L векторов выбраны случайно и представлены в указанной выше форме, и если L меньше чем n/(2 1og₂ п), где п – количество нейронов в наименьшем слое, тогда все запомненные образы, за исключением «малой части», могут быть восстановлены. Например, если п = 1024, тогда L должно быть меньше 51. Если все образы должны восстанавливаться, L должно быть меньше re/(4 1og₂ п), то есть меньше 25. Эти, скорее озадачивающие, результаты показывают, что большие системы могут запоминать только умеренное количество ассоциаций.

В работе [7] показано, что ДАП может иметь до 2ⁿстабильных состояний, если пороговое значение Т выбирается для каждого нейрона. Такая конфигурация, которую авторы назвали негомогенной ДАП, является расширением исходной гомогенной ДАП, в которой все пороги были нулевыми. Модифицированная передаточная функция нейрона принимает в этом случае следующий вид:

OUT_i(n+l) = l, если NET_i(n) > T_i,

OUT_i(n+l) = l, если NET_i(n) < T_i,

OUT_i(n+l) = OUT_i(n), если NET_i(n) = T_i,

где OUT_i(t) – выход нейрона i в момент времени t.

Посредством выбора соответствующего порога для каждого нейрона количество стабильных состояний может быть сделано любым в диапазоне от 1 до 2, где п есть количество нейронов в меньшем слое. К сожалению, эти состояния не могут быть выбраны случайно; они определяются жесткой геометрической процедурой. Если пользователь выбирает L состояний случайным образом, причем L меньше (0,68)n²/{[log₂(п)] + 4}², и если каждый вектор имеет 4 + log₂n компонент, равных +1, и остальные, равные –1, то можно сконструировать негомогенную ДАП, имеющую 98% этих векторов в качестве стабильных состояний. Например, если п = 1024, L должно быть меньше 3637, что является существенным улучшением по сравнению с гомогенными ДАП, но это намного меньше 2¹⁰²⁴ возможных состояний.

Ограничение количества единиц во входных векторах представляет серьезную проблему, тем более, что теория, которая позволяет перекодировать произвольный набор векторов в такой «разреженный» набор, отсутствует. Возможно, однако, что еще более серьезной является проблема некорректной сходимости. Суть этой проблемы заключается в том, что сеть может не производить точных ассоциаций вследствие природы поля притяжения; об ее форме известно очень немногое. Это означает, что ДАП не является ассоциатором по отношению к ближайшему соседнему образу. В действительности она может производить ассоциации, имеющие слабое отношение ко входному вектору. Как и в случае гомогенных ДАП, могут встречаться ложные стабильные состояния и немногое известно об их количестве и природе.

Несмотря на эти проблемы, ДАП остается объектом интенсивных исследований. Основная привлекательность ДАП заключается в ее простоте. Кроме того, она может быть реализована в виде СБИС (либо аналоговых, либо цифровых), что делает ее потенциально недорогой. Так как наши знания постоянно растут, ограничения ДАП могут быть сняты. В этом случае как в экспериментальных, так и в практических приложениях ДАП будет являться весьма перспективным и полезным классом искусственных нейронных сетей.

НЕПРЕРЫВНАЯ ДАП

В предшествующем обсуждении нейроны в слоях 1 и 2 рассматривались как синхронные, каждый нейрон обладает памятью, причем все нейроны изменяют состояния одновременно под воздействием импульса от центральных часов. В асинхронной системе любой нейрон свободен изменять состояние в любое время, когда его вход предписывает это сделать.

Кроме того, при определении функции активации нейрона использовался простой порог, тем самым образуя разрывность передаточной функции нейронов. Как синхронность функционирования, так и разрывность функций, являются биологически неправдоподобными и совсем необязательными; непрерывные асинхронные ДАП отвергают синхронность и разрывность, но функционируют в основном аналогично дискретным версиям. Может показаться, что такие системы должны являться нестабильными. В [9] показано, что непрерывные ДАП являются стабильными (однако для них справедливы ограничения емкости, обсужденные ранее).

В работах [2-5] показано, что сигмоида является оптимальной функцией активации благодаря ее способности усиливать низкоуровневые сигналы, в то же время сжимая динамический диапазон нейронов. Непрерывная ДАП может иметь сигмоидальную функцию с величиной l, близкой к единице, образуя тем самым нейроны с плавной и непрерывной реакцией, во многом аналогичной реакции их биологических прототипов.

Непрерывная ДАП может быть реализована в виде аналоговой схемы из резисторов и усилителей. Реализация таких схем в виде СБИС кажется возможной и экономически привлекательной. Еще более обещающей является оптическая реализация, рассматриваемая в гл. 9.

АДАПТИВНАЯ ДАП

В версиях ДАП, рассматриваемых до сих пор, весовая матрица вычисляется в виде суммы произведений пар векторов. Эти вычисления полезны, поскольку они демонстрируют функции, которые может выполнять ДАП. Однако это определенно не тот способ, посредством которого производится определение весов нейронов мозга.

Адаптивная ДАП изменяет свои веса в процессе функционирования. Это означает, что подача на вход сети обучающего набора входных векторов заставляет ее изменять энергетическое состояние до получения резонанса. Постепенно кратковременная память превращается в долговременную память, настраивая сеть в результате ее функционирования. В процессе обучения векторы подаются на слой А, а ассоциированные векторы на слой В. Один из них или оба вектора могут быть зашумленными версиями эталона; сеть обучается исходным векторам, свободным от шума. В этом случае она извлекает сущность ассоциаций, обучаясь эталонам, хотя «видела» только зашумленные аппроксимации.

Так как доказано, что непрерывная ДАП является стабильной независимо от значения весов, ожидается, что медленное изменение ее весов не должно нарушить этой стабильности. В работе [10] доказано это правило.

Простейший обучающий алгоритм использует правило Хэбба [8], в котором изменение веса пропорционально уровню активации его нейрона-источника и уровню активации нейрона-приемника. Символически это можно представить следующим образом:

δw_ij = η^*(OUT_i OUT_j), (7.5)

где δw_ij – изменение веса связи нейрона i с нейроном j в матрицах W или Wt, OUT_i – выход нейрона i слоя 1 или 2; η – положительный нормирующий коэффициент обучения, меньший 1.

КОНКУРИРУЮЩАЯ ДАП

Во многих конкурирующих нейронных системах наблюдаются некоторые виды конкуренции между нейронами. В нейронах, обрабатывающих сигналы от сетчатки, латеральное торможение приводит к увеличению выхода наиболее высокоактивных нейронов за счет соседних. Такие системы увеличивают контрастность, поднимая уровень активности нейронов, подсоединенных к яркой области сетчатки, в то же время еще более ослабляя выходы нейронов, подсоединенных к темным областям.

В ДАП конкуренция реализуется взаимным соединением нейронов внутри каждого слоя посредством дополнительных связей. Веса этих связей формируют другую весовую матрицу с положительными значениями элементов главной диагонали и отрицательными значениями остальных элементов. Теорема Кохен-Гроссберга [1] показывает, что такая сеть является безусловно стабильной, если весовые матрицы симметричны. На практике сети обычно стабильны даже в случае отсутствия симметрии весовых матриц. Однако неизвестно, какие особенности весовых матриц могут привести к неустойчивости функционирования сети.

ЗАКЛЮЧЕНИЕ

Ограниченная емкость памяти ДАП, ложные ответы и некоторая непредсказуемость поведения привели к рассмотрению ее как устаревшей модели искусственных нейронных сетей.

Этот вывод определенно является преждевременным. ДАП имеет много преимуществ: она совместима с аналоговыми схемами и оптическими системами; для нее быстро сходятся как процесс обучения так, и процесс восстановления информации; она имеет простую и интуитивно привлекательную форму функционирования. В связи с быстрым развитием теории могут быть найдены методы, объясняющие поведение ДАП и разрешающие ее проблемы.

Литература

12. Cohen M., Grossberg S. 1983. Absolute stability of global pattern formation and parallel memory storage by competitive neural networks. IEE Transactions on Systems, Man, and Cybernetics SMC-13:815-926.

13. Grossberg S. 1973. Contour enhancement, short term memory, and constancies in reverberating neural networks. Studies in Applied Mathematics 52:217-57.

14. Grossberg S. 1976. Adaptive pattern classification and universal recording, 1: Parallel development and coding of neural feature detectors. Biological Cibernatics 23:187-202.

15. Grossberg S. 1978. A theory of human memory: Self-organization and performance of sensory-motor codes, maps, and plans. In Progress in theoretical biology, vol. 5, ed. R. Rosen and F. Shell. New lork: Academic Press.

16. Grossberg S. 1980. How does the brain build a cognitive code? Psychological Review 1:1-51.

17. Grossberg S. 1982. Studies of mind and brain. Boston: Reidel Press.

18. Haines K., Hecht-Nielsen R. 1988. А ВАМ with increased information storage capacity. Proceedings of the IEEE International Conference on Neural Networks, vol. 1, pp. 181-190. San Diego, CA:SOS Printing.

19. Hebb D. O. 1949. The organization of behavior. New lork: Wiley.

20. Kosko B. (1987a). Bi-directional associative memories. IEEE Transactions on Systems, Man and Cybernetics 18(1):49-60.

21. Kosko B. (1987b). Competitive adaptive bi-directional associative memories. In Proceedings of the IEEE First International Conference on Neural Networks, eds. M.Caudill and C.Butler, vol. 2, pp. 759-66. San Diego, CA:SOS Printing.

22. Kosko B. (1987с). Constructing an associative memory. Byte, September, pp. 137-44.

23. Kosko В., Guest С. 1987. Optical bi-directional associative memories. Sosiety for Photo-optical and Instrumentation Engineers Proceedings: Image Understanding 758:11-18.

24. McEliece R. J., Rosner E. G. Rodemich E. R., Venka-tesh S. S. 1987. The capacity of Hopfield associative memory. IEEE Transactions on Information Theory IT-33:461-82.

<31 32 333435 36 37 >

Дата добавления: 2017-09-19; просмотров: 647;