PyTorch教程5.4之数值稳定性和初始化-电子发烧友网

到目前为止，我们实现的每个模型都需要我们根据一些预先指定的分布来初始化它的参数。直到现在，我们都认为初始化方案是理所当然的，掩盖了如何做出这些选择的细节。您甚至可能觉得这些选择并不是特别重要。相反，初始化方案的选择在神经网络学习中起着重要作用，对于保持数值稳定性至关重要。此外，这些选择可以以有趣的方式与非线性激活函数的选择联系起来。我们选择哪个函数以及我们如何初始化参数可以决定我们的优化算法收敛的速度。这里的错误选择可能会导致我们在训练时遇到梯度爆炸或消失的情况。在这个部分，

						%matplotlib inline
import torch
from d2l import torch as d2l

						 

						%matplotlib inline
from mxnet import autograd, np, npx
from d2l import mxnet as d2l

npx.set_np()

						%matplotlib inline
import jax
from jax import grad
from jax import numpy as jnp
from jax import vmap
from d2l import jax as d2l

						 

						No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)

					

						%matplotlib inline
import tensorflow as tf
from d2l import tensorflow as d2l

						 

5.4.1. 消失和爆炸梯度

考虑一个深度网络L图层，输入x 和输出o. 每层l由转换定义fl权重参数化 W(l), 隐藏层输出为 h(l)（让h(0)=x)，我们的网络可以表示为：

(5.4.1)h(l)=fl(h(l−1)) and thus o=fL∘…∘f1(x).

如果所有隐藏层的输出和输入都是向量，我们可以写出梯度为o关于任何一组参数 W(l)如下：

(5.4.2)∂W(l)o=∂h(L−1)h(L)⏟M(L)=def⋅…⋅∂h(l)h(l+1)⏟M(l+1)=def∂W(l)h(l)⏟v(l)=def.

换句话说，这个梯度是L−l矩阵 M(L)⋅…⋅M(l+1)和梯度向量v(l). 因此，当将太多概率相乘时，我们很容易遇到同样的数值下溢问题。在处理概率时，一个常见的技巧是切换到对数空间，即将压力从尾数转移到数值表示的指数。不幸的是，我们上面的问题更严重：最初矩阵 M(l)可能有各种各样的特征值。它们可能很小或很大，它们的产品可能很大或很小。

不稳定梯度带来的风险超出了数值表示。不可预测的梯度也会威胁到我们优化算法的稳定性。我们可能面临以下参数更新：(i) 过大，破坏了我们的模型（ 梯度爆炸问题）；或 (ii) 过小（梯度消失问题），由于参数几乎不会在每次更新时移动，因此无法进行学习。

PyTorch教程5.4之数值稳定性和初始化

5.4.1. 消失和爆炸梯度

简化稳定性检查

高稳定性TCXO的特点

Tg-5510ca:稳定性高

TG5032CMN高稳定性105℃高温

SD卡初始化及读取程序

理解FPGA的亚稳定性

PyTorch教程6.4之惰性初始化

ADC初始化测定方法

C语言指定初始化器解析及其应用

MPU6050初始化失败

Nand Flash驱动(实现初始化以及读操作)

环路稳定性原理与DCDC Buck环路稳定性

断路器电源稳定性的研究

多旋翼飞行器设计与控制的稳定性和可控性

根据MATLAB中的伪随机交织器产生的交织图案初始化到ROM的实验

Armlinux内核移植及系统初始化过程分析

一种针对网络稳定性的全IP车载网地址配置方案

西威变频器siei artdrive密码及初始化

闲谈医疗电子的可靠性、环路稳定性和EMC

机器视觉检测系统的不稳定性因素有哪些

如何使用精确估计满秩空间相关矩阵实现MNMF稳定初始化的方法

FPGA的亚稳定性详细资料简介

51单片机串口通讯初始化程序及及特殊功能寄存器设置的资料说明

在51平台下初始化文件的引入导致全局变量无法初始化的问题如何解决

使用51单片机进行有关变量及初始化问题资料讲解

uboot中进行LCD初始化的流程免费下载

如何进行MPU6050的初始化配置详细教程说明

51单片机定时器的初始化步骤详细说明

51单片机各中断初始化及子程序模板的详细资料说明

AT91SAM7初始化工具应用程序免费下载

GraniStudio：初始化例程

定义IO初始化结构体

STM32F407 MCU使用SD NAND 不断电初始化失效解决方案

质量视角下的系统稳定性保障--稳定性保障常态化自动化实践

凤凰动力舵轮驱动轮的稳定性如何影响AGV的运行效率和稳定性

自动控制原理怎么判断系统的稳定性

字符型、指针型等变量等该如何初始化

什么是热电偶稳定性？影响热电偶稳定性的主要因素

MCU单片机GPIO初始化该按什么顺序配置？为什么初始化时有电平跳变？

什么是晶振的频率稳定性？如何确保晶振的稳定性呢？

labview运行后如何初始化

自动初始化机制原理详解

温度和结构如何影响电阻稳定性

怎么分析电路的稳定性？

CW32L083 RTC初始化设置

PyTorch教程-5.4. 数值稳定性和初始化

CPU CACHE策略的初始化

dart语言的变量声明与初始化

带初始化的if和switch语句详解

字符型、指针型等变量该如何初始化

虹科分享 | 冷链监测之稳定性预算

RT-Thread自动初始化详解

冷链监测之稳定性预算详解

RT-Thread自动初始化机制

鸿蒙内核源码：内核空间是怎么初始化的？

C++之初始化列表学习的总结

计量标准的稳定性

什么是热电偶稳定性？如何检测热电偶稳定性？

霍尔无刷电机如何进行程序初始化？

神经网络如何正确初始化?

下载排行榜

PC5502负载均流控制电路数据手册

飞利浦D8714收录机说明书

RK3506B原理图参考设计

H110主板CPU PWM芯片ISL95858HRZ-T核心供电电路图资料

人工智能+消费：技术赋能与芯片驱动未来

⼯业电源&模块电源产品⼿册