在考虑设计可靠性时,大部分工程师都将注意力集中在一个综合性度量标准:平均故障间隔时间。事实上,平均故障间隔时间(MTBF)是评估设计可靠性重要参数之一。但是另一个参数“成功概率”,也同样重要。因此为了最终推出可靠的设计方案,设计人员应该充分考虑其它因素并确保进行准确的可靠性分析。
无论您设计哪种产品,可靠性都是必不可少的,尽管原因不尽相同,但都取决于终端应用。航空航天与军事设计人员必须确保操作员/乘客的安全,确保成功完成任务。在电信领域,实现可靠性的目的则是防止出现服务中断的情况,因为这样会影响收入流与声誉。工业和流程控制工程师的任务就是尽可能缩短停机时间,在故障发生时,能够确保安全、无故障运行。对于商业应用,设计人员必须确保其产品在规定的质保期内不会出现任何问题。
使用FPGA可以研发出集成度更高的解决方案,从而可以延长系统的平均故障间隔时间。当器件制造商定期提供季度可靠性报告时,这一点更为明显,赛灵思就是如此做的,其出版的季度可靠性报告UG116。
从最高层次来说,可从两个角度来考虑可靠性。第一,系统在规定使用寿命内顺利运行的可信度。这一点可以采用MTBF、成功概率以及熟悉的浴盆曲线。第二,发生错误事件时,如何确保您的设计可以继续工作并保持无故障运行,或者针对尚未解决的问题出具报告。我们工程师开展设计与分析的方法可以影响到可靠性的上述两个方面。
为了确保解决方案的可靠性,您的开发环境必须建立正确的工程设计治理制度,设置审查关口、设计规则与指南,同时在生命周期内,应该安排同行在适当的点进行独立审核。
MTBF与浴盆曲线
MTBF的定义是从统计学角度预测系统运行过程中的故障间隔时间。制造商取各个组件的故障率倒数计算MTBF。我们一般将这些故障率称为FIT率,其中,故障时间(FIT)为1e-9小时-1。您既可向组件供应商索取故障率,亦可根据军用手册MIL-HDBK-217F或Bell-core/Telcordia SR332标准计算。MTBF与FIT率之间的关系如下所示:
但是,上述故障率仅对浴盆曲线中的恒定故障率周期有效,如图1所示。
图1 - 浴盆曲线追踪产品引入时的早期(“早期故障期”)故障、使用寿命内所出现的故障以及寿命结束后的“磨损”故障。
浴盆曲线描绘的是产品引入时的早期(“早期故障期”)故障、正常使用寿命内发生的故障(“恒定故障率”)以及产品设计寿命结束时的故障。因此,生产过程中,通常会进行某种形式的“老化试验”,排除早期故障期故障。老化试验过程中,在各种温度作用下,器件潜在缺陷会加快发生,这样便可以确保器件在交付、装入系统之前失效。
您可以通过韦伯分布、或寿命数据与分析来确定您的产品或系统在浴盆内的位置,利用Excel很容易完成。形状参数β表明故障率是稳定、增加还是减少。若形状参数(β)小于1.0,则表明早期故障期内,故障率在下降,若形状参数大于1.0,则表明故障率在上升,而此现象会在磨损阶段出现。
为了确保成功概率合格,许多产品都要求MTBF必须远远高于预期使用寿命。
确定您在浴盆曲线中的位置后,如果您认为系统至少在MTBF期间可以继续无故障运行,那也是情有可原的。然而情况并非如此。MTBF是从统计学角度描述产品在使用寿命内可能出现的故障率;并非指产品的预期使用寿命。如果想要获得产品的预期使用寿命,我们需要考虑通过以下公式所求得的成功概率,其中t表示预期工作时间(单位:小时)。
将成功概率绘制成图之后,可以看到,当预期工作时间接近MTBF时,成功概率为0.37左右,如图2所示。这意味着成功概率这一单个模块在MTBF达到0.37所消耗的时间之后,仍然有效。如果考虑到一批器件,则其中的37%仍然正常工作。
因此,为了确保工作寿命内成功概率合格,许多系统/产品都要求MTBF必须远远高于预期使用寿命。例如,假设使用寿命为五年,成功概率为0.99,则产品所要求的MTBF必须达到4,361,048小时或497年,如以下公式所示。
显而易见,这远远超过了使用寿命。
可靠性计算
您可以采用以下方法之一计算可靠性与MTBF——零件计数分析或零件应力分析。其中零件计数分析比较简单,有时候可以在开发周期早期进行,作为产品是否达到可靠性要求的指标之一。此类分析考虑到了零件质量水平、数量以及使用环境。零件计数分析可以快速进行。但是,结果趋向于保守,导致故障率上升,MTBF缩短。
图2 - 当预期工作时间接近MTBF时,成功概率为0.37。
零件应力分析将会考虑到更多参数,因此所需时间更长,但是此类分析的结果更加准确。应力分析需要考虑到温度、电应力、质量、结构、工作环境等许多因素,具体取决于您所分析的组件种类。对于当前应用而言,此类分析所获得的故障率要准确得多。
提高可靠性
有许多方法和技术可用于帮助延长MTBF,进而提高您系统或产品的成功概率。最常用的方法是降低组件所承受的额定电应力与热应力。通过如此降额,在进行上述零件应力分析时,您可将器件应力考虑在内。各个公司通常都会制定自己的降额规则。但是,如果没有内部规则,则您可以参考业界标准规则,例如欧洲空间局的ECSS-Q-30-11A与美国海军的NAVSEA TE000-AB-GTP-010。
虽然零件应力分析会增加非经常性工程成本,但是对于工程团队而言,还有许多其它选项,这些选项均会影响到经常性成本。
第一个选项便是提升组件质量,同时应用类似的降额规则。这可能意味着,从标准商业零件到高质量的军用(通过QML Q认证的IC)乃至航空(通过QML V认证的IC)组件全面提升质量。然而值得注意的是,随着组件质量水平的提升,其价格亦会随之提升。表1显示了集成电路、混合件以及分立件所需的各种不同标准。
表1:IC、混合件与分立件的标准版、军用版与航空版
第二个选项便是引入冗余,无论是模块间的还是模块内的。冗余可增加尺寸、重量以及解决方案的成本,但其所带来的后果是对系统可靠性造成显著影响,进而影响系统可用性。通常最好的做法便是在系统层面做出冗余决策,在系统中故障率较高位置安装额外组件。此种方法是专门针对冗余而开发的最佳解决方案。
在考虑冗余时,您可以选择热冗余或冷冗余。对于“热”冗余解决方案,冗余系统采用电动,其配置可以通过无缝切换替换失效模块,不会对系统性能产生任何影响。缺点在于此种情况下,冗余设备会承受应力。
在“冷”冗余方案中,冗余系统通常不采用电动,只有在主模块失效之后,才会重新启动。系统会终止活动,直到对冗余端进行重新配置,非失效模块才会继续工作。虽然工作会中断,但是优点在于冷冗余解决方案不会老化,因为冷冗余不采用电动,不会承受电应力。
引入冗余之后,您必须注意确保故障不会扩散,因为在主模块侧失效的时候,如果故障扩散,则就会影响到冗余模块的性能。
系统级考虑事项
考虑了零件质量以及冗余对系统造成的重大影响之后,您还可以执行其它选项,以确保发生错误或故障事件时系统性能正常。这些选项包括:
● 危险故障扩散模式
● 内置测试、遥测以及事件日志,用于监控和记录系统健康状况
● 设备接口,无论是单一连接器还是主模块与冗余
● 关键命令顺序(例如,分离系统“手臂”与“消防”命令)
● 内存与数据链路错误率(BER、ECC)可接受
作为监管或认证标准的一部分,您必须进行危险性分析,以确定设备发生故障时可能出现的潜在危险。因此,您需要负责确保系统级的设计能够采取适当措施,通过联锁装置等避免上述危险发生。如有必要,您应该将这些减缓措施作为规定要求应用到各个子系统,以便确保这些故障模式均得到正确处理。
了解设备健康状态,然后上报或记录,您可以通过此方式进行预测,确保运行不会受到故障的影响,确定设备故障原因,有利于对其进行维修。更多的复杂系统可能包括全面的自测功能,通电之后或者运行期间可以连续运行此功能。表2显示了更加详细的您可能考虑监控的需求中断测试。
表2:状况监控详情表
上述结果可以通过通信链路以健康状态的形式进行传送,保存在非易失性存储器之中,例如,flash或FRAM或二者同时使用。通常情况下,您可能会选择采用实时时钟或越时计数器(elapsed-time counter),对这些事件逐一标记时间,以便形成参考系。
在恶劣环境下,工程师所面临的另一个问题是连接器。连接器是故障多发位置,因为里面的单独电缆可能会断开,或者连接器本身会因振动或震动等环境影响而掉落。因此,您可以通过装入冗余连接器和电缆来增加可靠性。第一个连接器发生故障后,冗余连接器可以接管通信,如图3所示。但是,这种冗余的代价是增加了复杂性,尤其是当您需要连接大量模块时。一种替代方案就是采用专门针对恶劣环境设计的连接器,例如MIL-STD 38999系列连接器。
图3 - 如果原始连接器出现故障的话,冗余连接器将接管工作,但代价是增加了复杂性。
图4 - 对于电气噪音比较大的环境,“手臂消防”顺序有助于降噪。
若系统或产品将用于恶劣环境,例如,电气噪音比较大,则系统内部总线所传送的命令考虑采用手臂/消防方案是比较明智的。在上述方案中(参见图4),初始命令被传送至接收器,然后接收器确认命令,并启动超时。如果接收器无法接收消防命令,则会发出不予确认字符(NACK)命令,作为响应,接收器在启动超时之前会发出确认字符(ACK)命令。类似的,如果接收器接收到其它命令,则其会发送NACK命令,并重新开始处理。此方案可确保,其中一个命令因电磁干扰(EMI)而被中断时,不会无意中产生关键命令。
此外,您还可以采用与手臂消防方法相类似的方法,确保所有通信链路和内存均有纠错与检测代码,确保可靠通信、数据得到可靠保存。至于是单独选择错误检测代码,还是选择错误检测与纠错代码,将取决于终端应用。然而,您可以使用许许多多的代码,从非常简单到比较复杂(表3)均可使用。保护级别随代码复杂程度增加而相应变化。
表3:EDAC代码,从简单到复杂。
所有工程师,无论其正在研究的终端应用是什么,均必须考虑到终端系统的可靠性。工程师可自行选择许多方法,用于帮助实现高可靠性产品。
---> END <---
全部0条评论
快来发表一下你的评论吧 !