如果使用非精确线搜索如强 Wolfe 线搜索,戴彧虹在文献 中举出例子表明,即使为一致凸函数,而且参数充分小,PRP 方法都可能产生一个上升搜索方向。如果每一个搜索方向都下降,则不难证明采取非精确线搜索方法对凸函数的收敛性,可参考文献 和文献。对一般非凸函数,Powell 在综述性文献中建议 PRP 方法中的参数为非负:
这样作的目的是避免当很大时,相邻两个搜索方向会趋于相反。 Gilbert 和 Nocedal 考虑了 Powell 的上述建议,并在适当的线搜索条件下,建立了修正 PRP 方法对一般非凸函数的全局收敛性。然而, Gilbert 也举例表明,即使对于一致凸函数,也可能为负。
1、PRP+ 方法的收敛性
PRP 共轭梯度法是由 Polak 和 Ribiere 和 Polyak 在 1969 年独立提出的一种非线性共轭梯度法,这种方法具有如下形式:
其中参数由以下公式计算:
为建立对一般非凸函数的收敛结果,令
充分下降条件,即
后面的线搜索将会基于 标准Wolfe 线搜索 或 强 Wolfe 线搜索,Wolfe 线搜索即
强 Wolfe 线搜索即
限制参数非负的一个优点是:它可以避免当很大时,相邻的两个搜索方向趋于相反方向的现象。进一步,我们可以证明当很大时,方向的变化较为缓慢,因此如果目标函数的水平集有界,方法产生的大步长数不可能很多;如果小步长较多,则可证明最多线性增长,从而证明方法收敛性。
我们要想证明如下收敛关系式
我们使用反证法:即假定存在常数,使得
此外,设的水平集有界,即存在,使得
这时,若连续可微,则也存在正常数,使得
引理 1:设目标函数水平集有界,且导数连续,考虑方法 (1) 和 (2),其中参数,步长因子满足条件 (6) 以及 充分下降条件 (5),如果 (9) 式成立,则。进一步,令,有
证明:由 (5) 式可知,。否则,有,故有定义,记
则由 (2) 式,对有
利用上式及可证明
显然,隐含,从而利用 (15) 和三角不等式,知
利用 (5) 式 和 条件
利用 (9) 式,则有
由上式及 (16) 式 知 (12) 成立。
(12) 式并不意为序列收敛,但它表明了当充分大时,向量的变化非常缓慢。
当 PRP 方法在某一步产生一个很小的步长时,下一步的搜索方向靠近最速下降方向,而不会连续地产生小步长。这一性质实质上归因于当步长很小时趋于零的性质。这个性质的严格表述最早由 Gilbert 和 Nocedal 给出的,并称之为性质()。
性质()考虑形如 (1) 和 (2) 的方法,并假定
我们说方法具有性质(),如果存在常数和,使得对所有的有下式成立:
以及
对于 PRP 方法,可取和,使得 (20) 和 (21) 两式成立,事实上,利用 (3) 式有
而若,则由导数的连续性知
显然,当具有性质()时,亦具有性质()。
下面我们证明,对于具有性质() 的方法,如果 (9) 式成立,则小步长的数目不可能太多,否则,最多线性增长,从而与 (9) 式矛盾。为此,我们记为正整数集,并对任意的,定义
用表示中元素的个数。
引理 2:设目标函数水平集有界,且导数连续。考虑方法 (1) 和 (2),其中参数,步长因子满足 Wolfe 线搜索 (6) 以及充分下降条件 (5)。如果具有性质(),且 (9) 式成立,则存在,使得对任意的 和 指标,均存在指标,满足
证明:用反证法,假设对任意,总存在和,使得
由 (9) 和 (11) 知 (19) 成立。因为方法具有性质(),故 (20) 和 (21) 对某和为真。对此选取和满足 (26)。
对,我们有
将上式递推,可得
其中是与无关的常数,考虑 (28) 中的一个典型项
其中
我们将 (29) 中的 个因子每 个分成一组。记为不超过的最大整数,则 的因子可分为 或 项:
以及可能的一项
其中。显然对成立,故由反证法假设 (26) 知
这表明在内恰好有个指标使得,而对另个指标有,根据 (20)、(21) 两式,我们对 (31) 中的每一项有如下估计量:
在 的推导中用到了 以及。可见中的每一项均小于或等于。对中的项,利用可得
故中右端括号中的每一项都小于,从而有
上式表明最多线性增长。而由充分下降条件和条件知
这和条件相矛盾,从而也表明引理为真。
定理 3:设目标函数水平集有界,且导数连续,考虑方法和,其中,步长因子满足 Wolfe 线搜索 (6) 以及充分下降条件 (5)。如果具有性质(),则方法给出。
证明:用反证法,假设式不成立,从而 引理 1 和 引理 2 的条件满足。仍定义,则对任意整数有
对上式两端取模,并利用得
设由 引理 2 给出,并记为不小于的最小整数。则由 引理 1 可知,存在指标,使得
由 引理 2 可知,存在,使得
对任意的,利用 不等式及 (40),得
利用上式,及和,得
故,这与的定义相矛盾,于是定理得证。
既然由式给出的非负,而且具有性质,从 定理 3 可立即推出:
推论 4:设目标函数水平集有界,且导数连续,考虑 方法 和,其中由和给出,步长因子满足 线搜索以及充分下降条件,则方法给出
依据前面的内容,通过对共轭梯度法的一般收敛性分析可知,如果线搜索满足强线搜索条件,则 推论 4 中的充分下降条件可以削弱为下降条件。文献 [6]、[7] 给出了这样的例子,使得对,则方法 (1) 和 (2) ( 其中 ) 不收敛。这一例子在一定程度上限制参数的必要性。而且在文献 [6]、[7] 也给出例子,表明 定理 3 中水平集有界的条件是必不可少的。
2、参考文献
[1] 戴彧虹. 非线性共轭梯度法. 2000, 科学出版社.
[2] Yuan Y X. Analysis on the conjugate gradient method. Optimization Methods and Software, 1993, 2: 19-29.
[3] 徐大川, 沙玉英, 杜秀梅. PR 方法的收敛性. 中科院计算数学报告, 1999.
[4] Powell M J D. Convergence properties pf algirithms for nonlinear optimization. SIAM Review, 1986, 28: 487-500.
[5] Gilbert J C, Nocedal J. Global convergence properties of conjugate gradient methods for optimization, SIAM, J. Optimization. 1992, 2(1): 21-42.