Оптимизация архитектуры
Разработаны различные методы изменения архитектуры сети с целью повысить способность сети к обобщению. Здесь есть два основных подхода:
• деструктивный подход: берется сеть заведомо большего размера, чем нужно, и в процессе обучения из нее удаляются связи и даже сами нейроны;
• конструктивный подход: первоначально берется маленькая сеть, и к ней, в соответствии со структурой и сложностью задачи, добавляются новые элементы.
Примером деструктивного подхода является метод уменьшения весов, в котором для предотвращения чрезмерного роста весов включается штрафное слагаемое:
с h<1. Здесь множитель h можно считать отношением среднего квадратичного остатков к среднему квадратичному весов. Добавленный член вызовет такое изменение весов , в результате уменьшаются те веса, на которые не действует первый член. Очевидно, чем больше вес, тем большее влияние он оказывает на функцию стоимости. Во втором варианте выражение для штрафа берется в виде
,
что приводит к более быстрому убыванию малых коэффициентов, чем больших. Кроме того, уменьшение весов помогает уходить с плоских участков поверхности на ранних стадиях обучения. Были предложены и другие виды выражений для штрафа, в результате чего удаляются не только соединения, но и нейроны. Еще один метод уменьшения числа связей состоит в том, чтобы находить в сети те веса, которые можно удалить, не меняя существенно среднеквадратичную ошибку на обучающем множестве. Вводится показатель si, (так называемая «выпуклость» веса) вида:
.
Удаление весов с малыми выпуклостями и повторное обучение урезанной сети улучшают ее общие характеристики. При итеративном применении этого метода к многослойному персептрону в задаче распознавания рукописного текста из сети было удалено более 50 процентов связей, и это привело к существенному уменьшению доли неправильно опознанных объектов.
1.5. Динамические, самоорганизующиеся сети
и сети со встречным распространением
Нейронные сети с прямой связью и обучением методом обратного распространения ошибки рассматриваются в литературе чаще других. Кроме них, существует много других сетевых моделей, таких как «конкурентное обучение» (или «адаптивная теория резонанса»), сети Хопфилда, машины Больцмана, самоорганизующиеся карты признаков Кохонена.
Дата добавления: 2015-09-18; просмотров: 737;