Метод градиентного спуска

В соответствии с основной идеей градиентного метода минимизирующая последовательность строится по правилу (6.3), т.е. в качестве направления убывания функции выбирается направление антиградиента ( ), которое, как показано выше, обеспечивает в малой окрестности точки наискорейшее убывание функции . В качестве длины шага в этом варианте градиентного метода находится какое-либо число , обеспечивающее условие монотонного убывания функции

. (6.4)

С этой целью задается какое-либо число . При этом для каждого проверяют условие монотонного убывания (6.4), и в случае его нарушения величину дробят до тех пор, пока не восстановится монотонность метода.

Приведем алгоритм одного из вариантов метода градиентного спуска.

Шаг 0. Задать параметр точности , начальный шаг , параметр алгоритма , выбрать , вычислить значение , положить .

Шаг 1. Найти градиент и проверить условие достижения заданной точности . Если оно выполняется, то перейти к шагу 6, иначе - к шагу 2.

Шаг 2. Найти новую точку в направлении антиградиента и вычислить .

Шаг 3. Проверить неравенство

, (6.5)

где - произвольно выбранная константа, одинаковая для всех итераций.

Шаг 4. Если неравенство (6.5) выполняется, то положить , , и перейти к шагу 1, иначе - перейти к шагу 3.

Шаг 5. Положить , где и перейти к шагу 2.

Шаг 6. Завершить вычисления, положив .

Замечание. Вблизи стационарной точки функции величина становится малой. Это может привести к замедлению сходимости последовательности . Поэтому в (6.3) вместо вектора антиградиента используют вектор единичной длины .

Обоснуем сходимость описанной итерационной процедуры, доказав возможность выбора длины шага , обеспечивающего сходимость последовательности к стационарной точке. Для этого на функцию кроме условия непрерывной дифференцируемости, приходится накладывать дополнительные более жесткие условия.

Теорема 6.1. Если функция ограничена снизу, ее градиент удовлетворяет условию Липшица, т.е.

(6.6)

с конечной константой при любых , а выбор производится описанным способом, то для процесса (6.3) норма градиента при , какова бы ни была начальная точка .

Д о к а з а т е л ь с т в о. По теореме о среднем

,

где . Тогда учитывая, что в рассматриваемой итерационной процедуре имеем

В силу неравенства Коши-Буняковского

и условия Липшица (6.6) имеют место неравенства

.

Учитывая, что , получаем

.

Из полученного соотношения видно, что существуют , при которых неравенство (6.5) справедливо. Для этого достаточно выбрать значение параметра , удовлетворяющее условию . Поскольку - ограниченная величина, а , то всегда можно это сделать.

Таким образом, если выбирать по указанному способу, то

. (6.7)

Отсюда с учетом того, что правило выбора при любом гарантирует (в качестве можно взять любую константу, не превосходящую )), следует, что при любом , если и что

. (6.8)

Далее поскольку функция ограниченна снизу и при любом , то при

(6.9)

Тогда из (6.8), (6.9) вытекает, что при .








Дата добавления: 2015-08-14; просмотров: 698;


Поиск по сайту:

При помощи поиска вы сможете найти нужную вам информацию.

Поделитесь с друзьями:

Если вам перенёс пользу информационный материал, или помог в учебе – поделитесь этим сайтом с друзьями и знакомыми.
helpiks.org - Хелпикс.Орг - 2014-2026 год. Материал сайта представляется для ознакомительного и учебного использования. | Поддержка
Генерация страницы за: 0.009 сек.