PyTorch教程12.4之随机梯度下降-电子发烧友网

在前面的章节中，我们一直在训练过程中使用随机梯度下降，但是没有解释它为什么有效。为了阐明它，我们刚刚在第 12.3 节中描述了梯度下降的基本原理。在本节中，我们将继续更详细地讨论随机梯度下降。

						%matplotlib inline
import math
import torch
from d2l import torch as d2l

						 

						%matplotlib inline
import math
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

						 

						%matplotlib inline
import math
import tensorflow as tf
from d2l import tensorflow as d2l

						 

12.4.1。随机梯度更新

在深度学习中，目标函数通常是训练数据集中每个示例的损失函数的平均值。给定训练数据集n例子，我们假设 fi(x)是关于 index 训练样例的损失函数i，在哪里x是参数向量。然后我们到达目标函数

(12.4.1)f(x)=1n∑i=1nfi(x).

目标函数的梯度在x被计算为

(12.4.2)∇f(x)=1n∑i=1n∇fi(x).

如果使用梯度下降，每次自变量迭代的计算成本为O(n), 线性增长 n. 因此，当训练数据集较大时，每次迭代的梯度下降代价会更高。

随机梯度下降 (SGD) 减少了每次迭代的计算成本。在随机梯度下降的每次迭代中，我们统一采样一个索引i∈{1,…,n}随机获取数据示例，并计算梯度∇fi(x)更新x:

(12.4.3)x←x−η∇fi(x),

在哪里η是学习率。我们可以看到每次迭代的计算成本从O(n) 梯度下降到常数O(1). 此外，我们要强调的是随机梯度 ∇fi(x)是完整梯度的无偏估计∇f(x)因为

(12.4.4)Ei∇fi(x)=1n∑i=1n∇fi(x)=∇f(x).

这意味着，平均而言，随机梯度是对梯度的良好估计。

现在，我们将通过向梯度添加均值为 0 和方差为 1 的随机噪声来模拟随机梯度下降，将其与梯度下降进行比较。

							def f(x1, x2): # Objective function
  return x1 ** 2 + 2 * x2 ** 2

def f_grad(x1, x2): # Gradient of the objective function
  return 2 * x1, 4 * x2

def sgd(x1, x2, s1, s2, f_grad):
  g1, g2 = f_grad(x1, x2)
  # Simulate noisy gradient
  g1 += torch.normal(0.0, 1, (1,)).item()
  g2 += torch.normal(0.0, 1, (1,)).item()
  eta_t = eta * lr()
  return (x1 - eta_t * g1, x2 - eta_t * g2, 0, 0)

def constant_lr():
  return 1

eta = 0.1
lr = constant_lr # Constant learning rate
d2l.show_trace_2d(f, d2l.train_2d(sgd, steps=50, f_grad=f_grad))

							 

							epoch 50, x1: 0.014749, x2: 0.009829

						

https://file.elecfans.com/web2/M00/A9/CA/poYBAGR9OS-ARqizAAD4tiLcbHE821.svg

							def f(x1, x2): # Objective function
  return x1 ** 2 + 2 * x2 ** 2

def f_grad(x1, x2): # Gradient of the objective function
  return 2 * x1, 4 * x2

def sgd(x1, x2, s1, s2, f_grad):
  g1, g2 = f_grad(x1, x2)
  # Simulate noisy gradient
  g1 += np.random.normal(0.0, 1, (1,))
  g2 += np.random
						

PyTorch教程12.4之随机梯度下降

12.4.1。随机梯度更新

PyTorch教程21.3之矩阵分解

PyTorch教程22.6之随机变量

PyTorch教程23.4之使用Google Colab

PyTorch教程23.2之使用亚马逊SageMaker

PyTorch教程23.8之API

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程6.2之参数管理

PyTorch教程6.1之层和模块

PyTorch教程10.8之波束搜索

PyTorch教程12.1之优化和深度学习

PyTorch教程12.5之小批量随机梯度下降

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程13.2之异步计算

PyTorch教程14.2之微调

PyTorch教程14.1之图像增强

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程2.3之线性代数

PyTorch教程3.1之线性回归

PyTorch教程2.6之概率统计

PyTorch教程14.4之锚箱

PyTorch教程19.3之异步随机搜索

PyTorch教程21.1之推荐系统概述

PyTorch教程7.3之填充和步幅

PyTorch教程7.2之图像卷积

PyTorch教程8.2之使用块的网络(VGG)

基于分布式编码的同步随机梯度下降算法

训练RNN时如何避免梯度消失

pytorch怎么在pycharm中运行

pytorch用来干嘛的

PyTorch教程-12.6. 势头

PyTorch教程-12.4。随机梯度下降

PyTorch教程-12.5。小批量随机梯度下降

梯度下降法在机器学习中的应用

详解神经网络中反向传播和梯度下降

梯度人工智能平台赋能业务加速

各种梯度下降法是如何工作的

深度神经网络的困扰 梯度爆炸与梯度消失

13个PyTorch使用的小窍门

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch重点综合实践

基于PyTorch的深度学习入门教程之DataParallel使用多GPU

基于PyTorch的深度学习入门教程之使用PyTorch构建一个神经网络

机器学习之感知机python是如何实现的

最新的越狱工具可实现iOS 12.4越狱

以线性回归算法来对三种梯度下降法进行比较

SGD的随机项在其选择最终的全局极小值点的关键性作用

深入浅出地介绍了梯度下降这一概念

简单的梯度下降算法，你真的懂了吗？

机器学习优化算法中梯度下降,牛顿法和拟牛顿法的优缺点详细介绍

讲解随机梯度下降、类别数据编码、Vowpal Wabbit机器学习库

基于numpy实现合成梯度

梯度下降算法及其变种：批量梯度下降，小批量梯度下降和随机梯度下降

梯度下降两大痛点：陷入局部极小值和过拟合

机器学习中梯度下降法的过程

从方向导数这个角度来解析梯度的负方向为什么是局部下降最快的方向

下载排行榜

3314A函数发生器维修手册

美的电磁炉维修手册大全

使用TL431设计电源

如何正确测试电源的纹波

感应笔电路图

LZC3106G高性能谐振控制器中文手册

深度神经网络的困扰梯度爆炸与梯度消失