热插拔技术概述详解

电子芯期天 2022-05-10 7398

描述

1、热插拔概述

1.1历史

热插拔（hot-plugging或Hot Swap）即带电插拔，是指将设备板卡或模块等带电接入或移出正在工作的系统，而不影响系统工作的技术。我们日常最常用的应用就是USB热插拔。

肖特基二极管

一方面，在军事、电信、金融等领域，设备投入运行后，必须夜以继日地运转，对这些设备的部件进行拆装维修、维护、扩展时，系统不能停机，停机则意味着重大的经济损失。这就要求设备部件能够在系统带电运行的情况下进行接入或者移出。

肖特基二极管

另一方面，对连接到总线上的设备，对单个设备进行插入或者拔出的时候，不能对总线产生较大干扰，否则会在总线上产生较大的噪声，引起总线上其他设备的停机或者误码产生，影响整条总线业务。热插拔技术正是在这种需求下应运而生。

民用热插拔技术开始于PC机的开发中，从586时代开始，系统总线都增加了外部总线的扩展，此时的系统总线已经初步满足热插拔的要求。1997年开始，新的BIOS中增加了即插即用功能的支持，虽然这种即插即用的支持并不代表完全的热插拔支持，仅支持热添加和热替换。

1.2 热插拔防护等级

按照电路带电插拔时对器件和信号的影响程度，把带电插拔的防护设计分为四个等级。介绍如下。但该四个等级是根据普通逻辑器件（如驱动器等）的电路结构来定义的，FPGA、CPLD等大逻辑器件的端口结构与普通逻辑器件有较大的区别，结构更加复杂，但仍可以等效为普通逻辑器件的热插拔等级。

1）0级防护

具有0级防护设计的电路板应在先关断主电源的情况下才能安全的带电插拔。它没有对瞬变电流或突变电压的抑制保护，插拔过程中插入电路板接口也不能进入高阻状态。如果插入电路板在系统没有断电情况下就进行带电插拔，板上的接口器件或其他元件很可能受到损坏。只能达到0级防护设计的电路板不能带电插拔。

2）1级防护（Partial Power Down）

具有1级防护设计的电路板在断电时能限制带电总线和插入电路板接口之间的电流，从而防止插入电路板受到损坏。这种瞬态电流限制就能保证在不打断主电源情况下带电插拔电路板，但是在带电插拔期间，主系统必须暂停信号传输。这种防护设计需要使用IOFF电路。

3）2级防护（Hot Insertion）

具有2级防护设计的电路板具有带电插拔性能，它能防止插入电路板插拔时的驱动冲突。2级防护设计除了具有1级防护设计的能力外，信号端还能在电源电压上升到指定值之前保持高阻状态，在电源电压超过这个指定值后会按照设置状态输出。电路板断电时，在电源电压下降到预定电压值之前输出保持为驱动逻辑电平，然后变成高阻状态。按照2级防护设计的要求，电路板带电插拔期间总线上的数据传输可能会被打断。2级防护设计既需要1级防护设计中的IOFF电路，也需要上电3态电路（PU3S）。

4）3级防护（Live Insertion）

具有3级防护设计的电路板在带电插拔时对系统电源和信号没有其他的限制、约束和要求。带电插拔和数据交换可同步进行，即在任何情况下进行插、拔操作都不会破坏数据，当然更不会损坏器件。为了达到这些要求，3级防护设计同时需要IOFF、PU3S和预充电I/O。

1.3 热插拔会导致的问题

在以前，我们使用电脑或者其他电子设备时，总会受到警告：不能带电插拔，如果我们带电插拔，轻则造成系统死机或者重启，重则造成接口电路硬件损坏，造成巨大损失。这是什么原因呢，对不支持热插拔的系统，带电插拔为什么会造成如此严重的后果？

（1）热插拔引发闩锁效应：热插拔前设备之间可能存在较高电位差，如果不采取相应措施这种电位差将对设备上的IC 芯片构成严重危害，尤其是CMOS器件，有可能引发闩锁效应。

（2）热插拔诱发静电问题：虽然冷插拔过程中也有静电问题，但是由于热插拔时一部分电路是处于上电工作状态，因此热插拔时的静电干扰会引发诸如“闩锁效应”之类恶性故障，除此之外，热插拔对于稳定工作的背板设备的静电干扰使得本来在设备内部的背板连接器变成了被静电直接击中的外部接口。

（3）热插拔导致浪涌问题：当单板插入机框时，机框中其他设备已处于稳定工作状态，所有储能电容均被充满电，而单板上的电容没有电荷，当设备与主板接触时设备上的电容充电将在短时间内从电源系统吸入大量电能，在供电线路上形成一股比正常工作电流高出数倍的浪涌电流。浪涌电流会使电源出现瞬时跌落导致系统复位、引发闩锁效应、导致连接器电路板金属连线和电路元件烧坏。

（4）热插拔对总线造成干扰：总线上插入板卡时，由于新插入板卡电容的充电以及上电过程中一些低阻抗通道的存在，会产生极大的浪涌电流，拉低总线电平，对总线上其他设备产生干扰，影响总线上其他设备的正常运行。同时插拔时也对总线接口带来静电问题。

2、热插拔导致的闩锁效应及其防治

2.1 闩锁效应及其机理

（1）定义：闩锁（Latch up）是指CMOS器件所固有的寄生双极晶体管被触发导通，在电源和地之间形成一个低阻通路。

（2）故障现象：CMOS芯片的电源和地之间大电流通过，导致芯片自身烧毁失效，严重时会波及周围的电路和易燃器件（如：钽电容）。

（3）内部机理：见图2-1

肖特基二极管

图2-1 闩锁内部机理示意图

如图2-1所示，CMOS发生闩锁效应时，其中的NMOS的有源区、P衬底、N阱、PMOS的有源区构成一个n-p-n-p的结构，即寄生晶体管（Q1、Q2），本质是寄生的两个双极晶体管的连接。P衬是NPN的基极，也是PNP的集电极，也就是NPN的基极和PNP的集电极是连着的；N阱既是PNP的基极，也是NPN的集电极。再因为P衬底和N阱带有一定的电阻，分别用R1和R2来表示。

当N阱或者衬底上的电流足够大，使得R1或R2上的压降为0.7V，就会是Q1或者Q2开启。例如Q1开启，它会提供足够大的电流给R2，使得R2上的压降也达到0.7V，这样R2也会开启，同时，又反馈电流提供给Q1，形成恶性循环，最后导致大部分的电流从VDD直接通过寄生晶体管到GND，而不是通过MOSFET的沟道，这样栅压就不能控制电流。

（4）闩锁机理的集总器件表述：

元器件中的寄生晶体管连接关系可以用集总元件来表示，如图2-2所示，其结构实际上是一个双端PNPN结结构，如果再加上控制栅极，就组成门极触发的闸流管。该结构具有如图3所示的负阻特性，该现象就称为闩锁效应（闩锁本是闸流管的专有名词）。即双端PNPN结在正向偏置条件下，器件开始处于正向阻断状态，当电压达到转折电压时，器件会经过负阻区由阻断状态进入导通状态．这种状态的转换，可以由电压触发(=0)，也可以由门极电流触发(≠O)。门极触发大大降低了正向转折电压。

肖特基二极管

图2 -2PNPN双端器件

两个寄生晶体管工作时，形成正反馈电路，加深可控硅导通，造成的结果在器件级的描述一样，一股大的电流将由电源流向接地端，导致一般正常电路工作中断，甚至会由于高电流散热的问题而烧毁芯片

2.2 闩锁的产生条件

（1）存在正反馈：寄生双极极晶体管回路电流增益必须大于1。β1β2.>1

（2）外触发条件：一个维持足够长时间的外部电流，使双极型晶体管导通起来。

（3）电流供应能力：外电路能持续提供维持闩锁所必须的电流。

2.3 闩锁的常见诱发原因

（1）输入/输出脚电压：高电平比芯片电源还高，低电平比芯片地还低，这是最常见的诱发原因。

（2）电源端异常的浪涌电压或噪声干扰，

（3）地线引入异常干扰电压。

2.4热插拔诱发闩锁的原因分析

（1）通讯管脚先于电源管脚接通导致CMOS器件的输入/输出脚电压高于电源电压或低于地电压。

（2）板卡插入瞬间由于电容充电电流，导致背板电源异常波动，引发器件闩锁。

（3）单板插入时板上静电放电导致的闩锁

（4）板卡拔出瞬间由于电感的感生电压导致背板CMOS器件闩锁。

2.5闩锁的预防措施

（1）电路接口部分采用防护措施：防止触发信号的引入。

（2）COMS器件输入/输出端加限流电阻。驱动长线负载时，做好匹配，以减小过冲、下冲，允许的条件下，可在CMOS器件端口处加两个二极管，一个接地，一个接电源。系统具有用户可操作的I/O，在I/O串接一个电阻限流，并可在端口处加两个二极管，一个接地，一个接电源。

肖特基二极管

（3）小功耗器件电源线上串限流电阻，电源串电阻，限流，消除闩锁导致器件的损坏。

（4）防止电源/地线电压波动

（5）避免大电容负载

（6）带电插拔时，要求连接顺序为：GND、低电压电源、高电压电源、I/O。其中电压以绝对值计。相同幅值的正负电源同时上电，可使两者的影响相互抵消。

（7）做好电源去耦，避免上电时或工作中，电源电压上冲或下冲导致的闩锁。

（8）数字电路与模拟电路相接时，如下图，通过电阻分压比用二极管箝位效果要好。

肖特基二极管

（9）继电器等感性负载，加反接二极管吸收浪涌电流。

（11）高低电压电源之间接二极管，避免在上下电时，低电压电源端电压超过高电压电源端过多，起箝位作用。

（12）同电压的不同电源之间加两个相互反接的肖特基二极管。

肖特基二极管

（13）AGND与DGND之间加两个相互反接的肖特基二极管。

审核编辑：李倩

打开APP阅读更多精彩内容