简单的梯度下降算法，你真的懂了吗？

电子工程师 2018-09-19 698

嵌入式技术

1335人已加入

梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

下山问题

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在当前位置的导数。

上式中，θ是自变量，f(θ)是关于θ的函数，θ表示梯度。

如果函数f(θ)是凸函数，那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了：

其中，θo是自变量参数，即下山位置坐标，η是学习因子，即下山每次前进的一小步（步进长度），θ是更新后的θo，即下山移动一小步之后的位置。

一阶泰勒展开式

这里需要一点数学基础，对泰勒展开式有些了解。简单地来说，一阶泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例：

不懂上面的公式？没有关系。我用下面这张图来解释。

凸函数f(θ)的某一小段[θo,θ]由上图黑色曲线表示，可以利用线性近似的思想求出f(θ)的值，如上图红色直线。该直线的斜率等于f(θ)在θo处的导数。则根据直线方程，很容易得到f(θ)的近似表达式为：

这就是一阶泰勒展开式的推导过程，主要利用的数学思想就是曲线函数的线性拟合近似。

梯度下降数学原理

知道了一阶泰勒展开式之后，接下来就是重点了！我们来看一下梯度下降算法是如何推导的。

先写出一阶泰勒展开式的表达式：

其中，θ−θo是微小矢量，它的大小就是我们之前讲的步进长度η，类比于下山过程中每次前进的一小步，η为标量，而θ−θo的单位向量用v表示。则θ−θo可表示为：

特别需要注意的是，θ−θo不能太大，因为太大的话，线性近似就不够准确，一阶泰勒近似也不成立了。替换之后，f(θ)的表达式为：

重点来了，局部下降的目的是希望每次θ更新，都能让函数值f(θ)变小。也就是说，上式中，我们希望f(θ)

打开APP阅读更多精彩内容