电子说
一、感知机算法收敛定理
由于感知机算法通过调整ω和b的值以使所有训练样本满足设定条件,人们可能直观感觉会出现当ω和b可使某一样本满足设定条件,就会使另一个样本不满足设定条件的情况,从而使感知机算法出现无限循环,无法终止的情况。
对于上述情况,弗兰克·罗森布拉特(Frank Rosenblatt)证明了如下结论:只要训练数据线性可分,感知机算法一定可以终止。该结论所对应的定理为感知机算法收敛定理。
在介绍感知机算法收敛定理前需先定义: 对于某一个Xi,其增广向量Xiz为:
(1)若yi=+1,则Xiz=(Xi,1)T;
(2)若yi=-1,则Xiz=(Xi,-1)T。
上述定义可将原问题:寻找(ω,b),使得对i=1~N,有:
(1)若yi=+1,则ωTXi+b<0;
(2)若yi=-1,则ωTXi+b>0。
简化为:寻找W=(ω,b)T,使得对i=1~N,有:WTXiz>0。
感知机算法收敛定理的表述如下:
对于N个增广向量X1z,X2z,…,XNz,如果存在一个权重向量ωopt,使得对于每一个i=1~N,有: ωoptTXiz>0 则运用上述感知机算法在有限步内可找到一个ω,使得对于所有的i=1~N,有: WTXiz>0。
感知机算法收敛定理中,ωoptTXiz>0等价于样本线性可分,且ω不一定与ωopt相等(如果存在一个超平面可将样本分为两类,则一定存在无数个超平面可将样本分为两类,ω和ωopt可以是无数个超平面权重向量中的两个)。
二、感知机算法收敛定理的证明
假设:||ωopt||=1。
(该假设成立的原因是向量W和aW代表的是同一平面,因此,ωopt可被a加权调整为||ωopt||=1)
定义ω(k)为第k次改变后的权重向量值,则可能出现以下两种情况:
(1)若ω(k)TXiz>0对所有i=1~N,则所有点已经达到平衡,感知机算法收敛。
(2)若存在i,使得ω(k)TXiz<0,则根据感知机算法:
ω(k+1)=ω(k)+Xiz
将上式两边同时减aωopt(aωopt与ωopt代表同一超平面的权重向量),得:
ω(k+1)-aωopt=ω(k)-aωopt+Xiz
上式两边取模的平方,可转化为:
||ω(k+1)-aωopt||2=||ω(k)-aωopt+Xiz||2=||ω(k)-aωopt||2+2ω(k)TXiz-2aωoptTXiz+||Xiz||2
因为ω(k)TXiz<0,所以:
||ω(k+1)-aωopt||2≤||ω(k)-aωopt||2-2aωoptTXiz+||Xiz||2
又因为对任意的i=1~N,ωoptTXiz>0,且||Xiz||2是一个有界的值,所以当a的值足够大时,可使
||Xiz||2-2aωoptTXiz≤-1
(课程中为||Xiz||2-2aωoptTXiz<-1)。 因此,||ω(k+1)-aωopt||2≤||ω(k)-aωopt||2-1,即W的值每更新一次(W=(ω,b)T),其距离aωopt的距离至少减少一个单位。
综上,假设W的初值为ω(0),则至多经过||ω(0)-aωopt||2次迭代,ω将收敛于aωopt。
审核编辑:刘清
全部0条评论
快来发表一下你的评论吧 !