人工神经网络（感知机算法）（下）

行业学习与研究 2023-07-19 496

电子说

1.3w人已加入

描述

一、感知机算法收敛定理

由于感知机算法通过调整ω和b的值以使所有训练样本满足设定条件，人们可能直观感觉会出现当ω和b可使某一样本满足设定条件，就会使另一个样本不满足设定条件的情况，从而使感知机算法出现无限循环，无法终止的情况。

对于上述情况，弗兰克·罗森布拉特（Frank Rosenblatt）证明了如下结论：只要训练数据线性可分，感知机算法一定可以终止。该结论所对应的定理为感知机算法收敛定理。

在介绍感知机算法收敛定理前需先定义：对于某一个Xi，其增广向量Xiz为：

（1）若yi=+1，则Xiz=(Xi,1)T；

（2）若yi=-1，则Xiz=(Xi,-1)T。

上述定义可将原问题：寻找(ω,b)，使得对i=1~N，有：

（1）若yi=+1，则ωTXi+b<0；

（2）若yi=-1，则ωTXi+b>0。

简化为：寻找W=(ω,b)T，使得对i=1~N，有：WTXiz>0。

感知机算法收敛定理的表述如下：

对于N个增广向量X1z，X2z，…，XNz，如果存在一个权重向量ωopt，使得对于每一个i=1~N，有： ωoptTXiz>0 则运用上述感知机算法在有限步内可找到一个ω，使得对于所有的i=1~N，有： WTXiz>0。

感知机算法收敛定理中，ωoptTXiz>0等价于样本线性可分，且ω不一定与ωopt相等（如果存在一个超平面可将样本分为两类，则一定存在无数个超平面可将样本分为两类，ω和ωopt可以是无数个超平面权重向量中的两个）。

二、感知机算法收敛定理的证明

假设：||ωopt||=1。

（该假设成立的原因是向量W和aW代表的是同一平面，因此，ωopt可被a加权调整为||ωopt||=1）

定义ω(k)为第k次改变后的权重向量值，则可能出现以下两种情况：

（1）若ω(k)TXiz>0对所有i=1~N，则所有点已经达到平衡，感知机算法收敛。

（2）若存在i，使得ω(k)TXiz<0，则根据感知机算法：

ω(k+1)=ω(k)+Xiz

将上式两边同时减aωopt（aωopt与ωopt代表同一超平面的权重向量），得：

ω(k+1)-aωopt=ω(k)-aωopt+Xiz

上式两边取模的平方，可转化为：

||ω(k+1)-aωopt||2=||ω(k)-aωopt+Xiz||2=||ω(k)-aωopt||2+2ω(k)TXiz-2aωoptTXiz+||Xiz||2

因为ω(k)TXiz<0，所以：

||ω(k+1)-aωopt||2≤||ω(k)-aωopt||2-2aωoptTXiz+||Xiz||2

又因为对任意的i=1~N，ωoptTXiz>0，且||Xiz||2是一个有界的值，所以当a的值足够大时，可使

||Xiz||2-2aωoptTXiz≤-1

（课程中为||Xiz||2-2aωoptTXiz＜-1）。因此，||ω(k+1)-aωopt||2≤||ω(k)-aωopt||2-1，即W的值每更新一次（W=(ω,b)T）,其距离aωopt的距离至少减少一个单位。

综上，假设W的初值为ω(0)，则至多经过||ω(0)-aωopt||2次迭代，ω将收敛于aωopt。

审核编辑：刘清

打开APP阅读更多精彩内容