这篇文章很早就在 CSCD 上面发表过,所以我就直接复制过来了。DY 共轭梯度法是由中国学者 戴彧虹 和 袁亚湘 提出来的,可以说是我们这个方向非常经典的文章,这两位大师在国际优化领域也大放光彩。戴彧虹 目前是中国《运筹学学会》会长,袁亚湘 是中科院院士。目前共轭梯度法里面的很多经典文章是出自于这两位大师之手。
1、简介
1952 年,Hestense 和 Stiefel 在求解线性方程组 AX=b 时提出了共轭梯度法,我们称为线性共轭梯度法。1964 年,Fletcher 和 Reeves 将共轭梯度法应用到求解二次函数的局部极小点问题中,这通常被认为是求解无约束优化问题的非线性共轭梯度法的开端。共轭梯度法由于只是需要一阶导数信息,所以具有存贮量小的特点,适合求解大型无约束无约束优化问题。
对于无约束优化问题
其中是连续可微函数,其梯度函数记为.。其一般的迭代格式为:
,
其中是迭代点处的梯度,是搜素步长,是搜素方向,为共轭参数。
不同的参数决定不同的共轭梯度法,本文想说明的是算法,其他算法便不在此处列出。
决定步长的线搜索此处仅给出两种
标准 Wolfe 线搜索
强 Wolfe 线搜索
其中.
2、DY 共轭梯度法的框架和假定
基于公式(2),(3),(4)和标准 Wolfe 线搜索 (5) 和 (6),给出 DY 共轭梯度法的算法框架.
DY 共轭梯度法
步1:给定初始点,,,令,,若,终止.
步2:由标准 Wolfe 线搜索 (5) 和 (6) 计算步长因子 .
步3:迭代计算,,若,终止.
步4:令,转步2.
假定:(1) 函数在水平集上有下界.
(2) 在水平集的某个邻域上,的梯度函数是连续,存在常数,使得
2、DY共轭梯度法的收敛性证明
定理1: 设目标函数有下界,梯度函数满足连续,考虑一般方法,其中满足,步长因子满足 (5) 和 (6),则有
证明: 由 (6) 可知
另一方面,由 Lipchitz 条件 (9) 有
利用上面两式得
由上式和 (5) 式得
其中,对上式从求和, 并利用 有下界,则命题成立。
注:关系式 (10) 也被称为 条件.
定理2:考虑方法 (2) 和 (3),其中按 计算,满足 (5) 和 (6),则或者对某成立,或者
证明: 假设对所有的,均有
当时,,两端与做内积。
因为,显然对成立。假设,由 (6)式可知,,故。
由假设,可知,利用数学归纳法,则 (11) 成立。
注:(1) 表明 DY 共轭梯度法可以保证每个迭代点的满足,也即 为 在处的下降方向
(2) 我们可有式 (12) 知,在收敛性证明中这是非常重要的。
定理3:设目标函数有下界,梯度是 连续的,考虑方法和,其中按计算,步长选择标准 Wolfe 线搜索和,则或者对某个成立,或者
证明: 用反证法,假设结论不真,则必存在,使得
由定理 2 可知,DY 共轭梯度法的每一个搜索方向必为下降方向,故定理 1 中的 Zoutendijk 条件是成立的。
当时,,两端取模平方并移项,可得
将上式除以,并利用得
由于,根据上式递推,则有
由式,则有
从而
上式与 定理 1相矛盾,从而假设不成立,故命题得证。
注: 该定理表明 DY 共轭梯度法在寻常假定下是全局收敛的,当然这是一种弱收敛,但是对于共轭梯度法的收敛性要求,这种收敛是完全可以接受的。
4、对 DY 共轭梯度法的进一步讨论
在 定理 2 中指出 DY 共轭梯度法的每一次搜索方向必是下降方向,即
在很多算法中我们可能需要每一次搜索方向是充分下降的,即存在常数,使得
显然算法具有充分下降性则一定具有下降性,我们在此给出两种情况可以保证 DY 共轭梯度法具有充分下降性。一种是线搜索的加强,一种是函数的加强。
(1)、DY 共轭梯度法在强 Wolfe 线搜索下具有充分下降性
显然强 Wolfe 线搜索是标准 Wolfe 线搜索的特列,则 DY 共轭梯度法在标准 Wolfe 线搜索下具有下降性,则在强 Wolfe 线搜索下也一定具有下降性。因为
由强 Wolfe 线搜索可知
利用 和 以及上面两式,则有
故充分下降 式中的可取
(2),DY 共轭梯度法在一致凸函数时考虑某些线搜索可保证充分下降性
在之前的文章我们已经介绍了凸集、凸函数、严格凸函数、一致凸函数(强凸函数)的定义,首先说明一下凸函数都是定义在凸集上。下面就简单说一下他们的定义
<1> 凸集
设集合,若对于任意的,对任意的实数,都有,则称为凸集。
<2> 凸函数
设函数定义在凸集上。若对于任意,及任意实数,都有
<3> 严格凸函数
设函数定义在凸集上。若对于任意,,及任意实数,都有
<4> 一致凸函数
设函数定义在凸集上。若存在常数,对任意,及任意实数,都有
注: 无论是凸函数,严格凸函数,一致凸函数都未要求函数是连续可微的,若是连续可微的,一致凸函数有如下等价表达,此处不给出证明,如果有兴趣,可以参考其他书籍。
或者
现在说明以下某些线搜索,比如仅仅需要标准 Wolfe 线搜索中的 (5) 而不需要 (6),或者其他的情况。主要两种如下情况
或者
其中.
<5> 若为强凸函数且线搜索有公式的 DY 共轭梯度法满足充分下降性
由公式可知
因为为一致凸函数,根据公式必有,其实这个性质,为严格凸函数也具有,是根据严格凸函数的等价定义,由此,我们可以利用数学归纳法,证明若函数为严格凸函数,则 DY 算法每次搜索方向必为下降方向,从而也可以得出 DY 共轭梯度法的收敛性,而且这种下降性和全局收敛性不依赖于任何线搜索。但是此处我们想讨论的是充分下降性,所以不能就此结束。
利用公式我们有
结合公式我们有
其中
根据梯度函数 条件,我们有
利用,和,则
故充分下降中的可取
<6> 若为强凸函数且线搜索有公式的 DY 共轭梯度法满足充分下降性
此处证明过程基本与上相同,故在此简单说一下。
利用公式我们有
结合公式我们有
其中
后面与式 中完全一样,只是其中换成而已。
注:很多人可能觉得式 (18) 或者 (19)线搜索是否存在,此处我想说的是当然存在,比如有 Armijo 线搜索, 后面我可能会单独讲一下线搜索,此处不想过多讲述。
5、总结和参考文献
这篇文章的内容主要讲述了三个方面:一、 DY 共轭梯度法在标准 Wolfe 线搜索下的全局收敛性。二、DY共轭梯度法在强 Wolfe 线搜索下具有充分下降性并且全局收敛性。三、DY 共轭梯度法在一致凸函数加以某些条件具有充分下降性。
以上内容参考 袁亚湘 和 戴彧虹老师的文章,对了 DY 共轭梯度法中 D 和 Y 便是他们名字的首字母,是八种经典共轭梯度法(DY,FR,CD,PRP,HS,LS,DL,HZ)的其中之一。
参考文献
[1] Dai Y H , Yuan Y. A Nonlinear Conjugate Gradient with a Strong Global Convergence Property, SIAM Journal of Optimization, 2000, 10: 177-182
[2] Dai Y H, Yuan Y. Some properties of a new conjugate gradient method, in: Yuan Y, ed. Advances in Nonlinear Programming, Boston: Kluwer, 1998, 251~262.