现在我们对单个变量的函数的导数有了相当深入的理解,让我们回到我们最初的问题,我们正在考虑可能有数十亿权重的损失函数。
22.4.1。高维微分
第 22.3 节告诉我们的是,如果我们改变这数十亿个权重中的一个,而让其他权重保持不变,我们知道会发生什么!这无非是一个单变量的函数,所以我们可以这样写
(22.4.1)L(w1+ϵ1,w2,…,wN)≈L(w1,w2,…,wN)+ϵ1ddw1L(w1,w2,…,wN).
我们将一个变量的导数称为偏导数,同时将其他变量固定为偏导数,我们将使用符号 ∂∂w1对于(22.4.1)中的导数 。
现在,让我们改变一下w2一点点 w2+ϵ2:
(22.4.2)L(w1+ϵ1,w2+ϵ2,…,wN)≈L(w1,w2+ϵ2,…,wN)+ϵ1∂∂w1L(w1,w2+ϵ2,…,wN+ϵN)≈L(w1,w2,…,wN)+ϵ2∂∂w2L(w1,w2,…,wN)+ϵ1∂∂w1L(w1,w2,…,wN)+ϵ1ϵ2∂∂w2∂∂w1L(w1,w2,…,wN)≈L(w1,w2,…,wN)+ϵ2∂∂w2L(w1,w2,…,wN)+ϵ1∂∂w1L(w1,w2,…,wN).
我们再次使用了这样的想法ϵ1ϵ2是一个更高阶的项,我们可以用我们可以丢弃的相同方式丢弃