算法优化的方法：避开鞍点

消耗积分:2 | 格式:rar | 大小:1.3 MB | 2017-10-11

分享资料个

　凸函数比较简单——它们通常只有一个局部最小值。非凸函数则更加复杂。在这篇文章中，我们将讨论不同类型的临界点（ critical points），当你在寻找凸路径（ convex path ）的时候可能会遇到。特别是，基于梯度下降的简单启发式学习方法，在很多情形下会致使你在多项式时间内陷入局部最小值（ local minimum ）。
　　临界点类型
　　算法优化的方法：避开鞍点

　　为了最小化函数f:Rn→R，最流行的方法就是往负梯度方向前进∇f（x）（为了简便起见，我们假定谈及的所有函数都是可微的），即：
　　y=x−η∇f（x），
　　其中η表示步长。这就是梯度下降算法（gradient descentalgorithm）。
　　每当梯度∇f（x）不等于零的时候，只要我们选择一个足够小的步长η，算法就可以保证目标函数向局部最优解前进。当梯度∇f（x）等零向量时，该点称为临界点（ critical point），此时梯度下降算法就会陷入局部最优解。对于（强）凸函数，它只有一个临界点（critical point），也是全局最小值点（global minimum）。
　　然而，对于非凸函数，仅仅考虑梯度等于零向量远远不够。来看一个简单的实例：
　　y=x12−x22.
　　当x=（0，0）时，梯度为零向量，很明显此点并不是局部最小值点，因为当x=（0，ϵ）时函数值更小。在这种情况下，（0，0）点叫作该函数的鞍点（saddle point）。
　　为了区分这种情况，我们需要考虑二阶导数∇2f（x）——一个n×n的矩阵（通常称作Hessian矩阵），第i，j项等于
　　算法优化的方法：避开鞍点

　　。当Hessian矩阵正定时（即对任意的u≠0，有u⊤∇2f（x）u 》 0恒成立），对于任何方向向量u，通过二阶泰勒展开式
　　算法优化的方法：避开鞍点

　　，可知x必定是一个局部最小值点。同样，当Hessian矩阵负定时，此点是一个局部最大值点；当Hessian矩阵同时具有正负特征值时，此点便是鞍点。
　　对于许多问题，包括 learning deep nets，几乎所有的局部最优解都有与全局最优解（global optimum）非常相似的函数值，因此能够找到一个局部最小值就足够好了。然而，寻找一个局部最小值也属于NP-hard问题（参见 Anandkumar，GE 2006中的讨论一节）。实践当中，许多流行的优化技术都是基于一阶导的优化算法：它们只观察梯度信息，并没有明确计算Hessian矩阵。这样的算法可能会陷入鞍点之中。
　　在文章的剩下部分，我们首先会介绍，收敛于鞍点的可能性是很大的，因为大多数自然目标函数都有指数级的鞍点。然后，我们会讨论如何对算法进行优化，让它能够尝试去避开鞍点。
　　对称与鞍点
　　许多学习问题都可以被抽象为寻找k个不同的分量（比如特征，中心…）。例如，在聚类问题中，有n个点，我们想要寻找k个簇，使得各个点到离它们最近的簇的距离之和最小。又如在一个两层的神经网络中，我们试图在中间层寻找一个含有k个不同神经元的网络。在我先前的文章中谈到过张量分解（tensor decomposition），其本质上也是寻找k个不同的秩为1的分量。
　　解决此类问题的一种流行方法是设计一个目标函数：设x1，x2，…，xK∈Rn表示所求的中心（centers），让目标函数f（x1，…，x）来衡量函数解的可行性。当向量x1，x2，…，xK是我们需要的k的分量时，此函数值会达到最小。
　　这种问题在本质上是非凸的自然原因是转置对称性（permutation symmetry）。例如，如果我们将第一个和第二个分量的顺序交换，目标函数相当于：f（x1，x2，…，xk）= f（x1，x2，…，xk）。
　　然而，如果我们取平均值，我们需要求解的是
　　算法优化的方法：避开鞍点

　　，两者是不等价的！如果原来的解是最优解，这种均值情况很可能不是最优。因此，这种目标函数不是凸函数，因为对于凸函数而言，最优解的均值仍然是最优。
　　算法优化的方法：避开鞍点

　　所有相似解的排列有指数级的全局最优解。鞍点自然会在连接这些孤立的局部最小值点上出现。下面的图展示了函数y = x14−2x12+ X22：在两个对称的局部最小点（−1，0）和（1，0）之间，点（0，0）是一个鞍点。

算法优化

下载并关注上传者 低至0.43元/天 开通VIP 免费下载

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

发评论

相关下载
相关文章

下载排行榜

暂无相关数据

算法优化的方法：避开鞍点

粒子群优化算法的应用 粒子群优化算法研究方法

MATLAB优化算法汇总03

MATLAB优化算法汇总02

MATLAB优化算法汇总01

优化算法、智能算法、智能控制技术的特点和应用

基于灰狼优化算法的机器人源定位追踪

基于遗传算法优化的RFID指纹室内定位算法

基于灰狼算法的相机标定优化方法及分析

基于果蝇算法的物联网节点定位改进方法

机器学习可靠性与算法优化

鼠疫传染病优化算法PDO及研究综述

基于粒子群算法和灰狼算法的相机优化算法

机床热误差的来源、获取方法及优化方法等

基于改进的蝗虫优化算法的LSTM预测方法

一种基于改进蝙蝠算法的控制器优化部署方法

结合深度与演化算法的群竞争合作优化算法

一种头脑风暴算法优化的乳腺MR图像软子空间聚类算法

一种融入社会影响力的粒子群优化算法

一种基于RBPF的、优化的激光SLAM算法

采用多目标蚁群优化算法的主题爬虫方法

基于SQAG模型的网络攻击建模优化算法

基于SQAG模型的网络攻击建模优化算法

5G NSA优化方法及其相关研究

一种改进的花朵授粉算法的WEB服务组合优化

一种改进的哈里斯鹰优化定位算法

基于SVDPP算法的新型协同过滤推荐算法

AES算法中S—box和列混合单元的优化及FPGA实现的论文说明

分数阶原始对偶去噪模型及其数值算法

优化算法和智能算法与智能控制技术有哪些特点和应用

如何使用混合果蝇优化算法进行现场服务调度问题的解决方法

智能电网定价的光学优化算法

神经网络优化算法有哪些

MySQL性能优化方法

PID算法原理分析及优化

离岗睡岗算法优化——提高智慧矿山安全效率

如何使用PID控制算法优化控制系统

边缘计算计算卸载与资源分配联合优化算法

开关管MOSFET的损耗分析及其优化方法

粒子群优化算法PSO优化模糊控制论域

基于matlab免疫算法求解生产调度零等待问题

点云标注的算法优化与性能提升

基于机器学习算法的校准优化方案

从浅层到深层神经网络：概览深度学习优化算法

鲸鱼优化算法MATLAB实战

如何对spmv算法进行优化

什么是深度学习中优化算法

基于广义赋形算法的基站天线优化设计方法

基于群体的元启发式算法——象鼻虫伤害优化算法

一些对OpenMP进行优化的方法

线性和非线性最优化理论、方法、软件及应用的介绍

不同拓扑结构的并行粒子群优化算法如何去实现？

剖析正交匹配追踪算法的优化设计与FPGA实现

FPGA芯片用于神经网络算法优化的设计实现方案

深度学习中多种优化算法

基于DSP和模板匹配算法的实时图像跟踪处理系统的优化设计

梯度提升方法(Gradient Boosting)算法案例

使用FPGA实现AES算法的优化设计

图像处理算法的优化

通过OFDM系统峰均比进行算法优化，降低OFDM信号的PAPR

深读解析反向传播算法在解决模型优化问题的方面应用

基于Blackfin533的CCSDS图像压缩算法编码优化

下载排行榜

粒子群优化算法的应用粒子群优化算法研究方法