在前面的章节中,我们一直在训练过程中使用随机梯度下降,但是没有解释它为什么有效。为了阐明它,我们刚刚在第 12.3 节中描述了梯度下降的基本原理。在本节中,我们将继续 更详细地讨论随机梯度下降。
12.4.1。随机梯度更新
在深度学习中,目标函数通常是训练数据集中每个示例的损失函数的平均值。给定训练数据集n例子,我们假设 fi(x)是关于 index 训练样例的损失函数i, 在哪里x是参数向量。然后我们到达目标函数
目标函数的梯度在x被计算为
如果使用梯度下降,每次自变量迭代的计算成本为O(n), 线性增长 n. 因此,当训练数据集较大时,每次迭代的梯度下降代价会更高。
随机梯度下降 (SGD) 减少了每次迭代的计算成本。在随机梯度下降的每次迭代中,我们统一采样一个索引i∈{1,…,n}随机获取数据示例,并计算梯度∇fi(x)更新x:
在哪里η是学习率。我们可以看到每次迭代的计算成本从O(n) 梯度下降到常数O(1). 此外,我们要强调的是随机梯度 ∇fi(x)是完整梯度的无偏估计∇f(x)因为
这意味着,平均而言,随机梯度是对梯度的良好估计。
现在,我们将通过向梯度添加均值为 0 和方差为 1 的随机噪声来模拟随机梯度下降,将其与梯度下降进行比较。
def f(x1, x2): # Objective function
return x1 ** 2 + 2 * x2 ** 2
def f_grad(x1, x2): # Gradient of the objective function
return 2 * x1, 4 * x2
def sgd(x1, x2, s1, s2, f_grad):
g1, g2 = f_grad(x1, x2)
# Simulate noisy gradient
g1 += torch.normal(0.0, 1, (1,)).item()
g2 += torch.normal(0.0, 1, (1,)).item()
eta_t = eta * lr()
return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)
def constant_lr():
return 1
eta = 0.1
lr = constant_lr # Constant learning rate
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))
epoch 50, x1: 0.014749, x2: 0.009829
def f(x1, x2): # Objective function
return x1 ** 2 + 2 * x2 ** 2
def f_grad(x1, x2): # Gradient of the objective function
return 2 * x1, 4 * x2
def sgd(x1, x2, s1, s2, f_grad):
g1, g2 = f_grad(x1, x2)
# Simulate noisy gradient
g1 += np.random.normal(0.0, 1, (1,))
g2 += np.random