高可靠性是过程控制系统的第一要求。冗余技术是计算机系统可靠性设计中常采用的一种技术,是提高计算机系统可靠性的最有效方法之一。为了达到高可靠性和低失效率相统一的目的,我们通常会在控制系统的设计和应用中采用冗余技术。合理的冗余设计将大大提高系统的可靠性,但是同时也增加了系统的复杂度和设计的难度,应用冗余配置的系统还增加了用户投资。因此,如何合理而有效的进行控制系统冗余设计,是值得研究的课题。
1:冗余技术
冗余技术概要:冗余技术就是增加多余的设备,以保证系统更加可靠、安全地工作。冗余的分类方法多种多样,按照在系统中所处的位置,冗余可分为元件级、部件级和系统级;按照冗余的程度可分为1:1冗余、1:2冗余、1:n冗余等多种。在当前元器件可靠性不断提高的情况下,和其它形式的冗余方式相比,1:1的部件级热冗余是一种有效而又相对简单、配置灵活的冗余技术实现方式,如I/O卡件冗余、电源冗余、主控制器冗余等。因此,目前国内外主流的过程控制系统中大多采用了这种方式。当然,在某些局部设计中也有采用元件级或多种冗余方式组合的成功范例。
控制系统冗余设计的目的:系统运行不受局部故障的影响,而且故障部件的维护对整个系统的功能实现没有影响,并可以实现在线维护,使故障部件得到及时的修复。冗余设计会增加系统设计的难度,冗余配置会增加用户系统的投资,但这种投资换来了系统的可靠性,它提高了整个用户系统的平均无故障时间(MTBF),缩短了平均故障修复时间(MTTR),因此,应用在重要场合的控制系统,冗余是非常必要的。
二个部件组成的并联系统(互为冗余)与单部件相比,平均无故障时间是原来的1.5倍。系统的可用性指标可以用两个参数进行简单的描述,一个是平均无故障时间(MTBF),另一个是平均修复时间(MTBR)。系统的可用性可用下式表示:
系统可用性=MTBF/(MTBF+MTBR)
当可用性达到99.999%时,系统每年停止服务的时间只有6分钟。
2:控制系统冗余的关键技术
冗余是一种高级的可靠性设计技术, 1:1热冗余也就是所谓的双重化,是其中一种有效的冗余方式,但它并不是两个部件简单的并联运行,而是需要硬件、软件、通讯等协同工作来实现。将互为冗余的两个部件构成一个有机的整体,通常包括以下多个技术要点:
1)信息同步技术
它是工作、备用部件之间实现无扰动(Bumpless)切换技术的前提,只有按控制实时性要求进行高速有效的信息同步,保证工作、备用部件步调一致地工作,才能实现冗余部件之间的无扰动切换。
在热备用工作方式下,其中一块处于工作状态(工作卡),实现系统的数据采集、运算、控制输出、网络通讯等功能;而另一块处于备用状态(备用卡),它实时跟踪工作卡的内部控制状态(即状态同步)。工作/备用卡件之间的正/负逻辑是互斥的,即一个为工作卡,另一个必定是备用卡;而且它们之间有冗余控制电路(又称工作/备用控制电路)和信息通讯电路,以协调两块卡件同时而且有序地运行,保证对外输入输出特性的同一性,即对于用户使用而言,可以认为只有一个部件。一般在设计中,工作、备用部件之间通过高速的冗余通讯通道(串行或并行)实现运行状态互检和控制状态的同步(如组态信息、输出阀位、控制参数等)。
2)故障检测技术
为了保证系统在出现故障时及时将冗余部分投入工作,必须有高精确的在线故障检测技术,实现故障发现、故障定位、故障隔离和故障报警。故障检测包括电源、微处理器、数据通讯链路、数据总线及I/O状态等。其中故障诊断包括故障自诊断和故障互检(工作、备用卡件之间的相互检查)
3) 故障仲裁技术和切换技术
精确及时地发现故障后,还需要及时确定故障的部位、分析故障的严重性,依赖前文提到的冗余控制电路,对工作、备用故障状态进行分析、比较和仲裁,以判定是否需要进行工作/备用之间的状态切换。控制权切换到冗余备用部件还必须保证快速、安全、无扰动。当处于工作状态的部件出现故障(断电、复位、软件故障、硬件故障等)或者工作部件的故障较备用部件严重时,备用部件必须快速地无扰动地接替工作部件的所有控制任务,对现场控制不造成任何影响。同时要求切换时间应为毫秒级,甚至是微秒级,这样就不会因为该部件的故障而造成外部控制对象的失控或检测信息失效等等。另外,还需要尽快通过网络通讯或就地LED显示进行报警,通知用户出现故障的部件和故障情况,以便进行及时维护。
4)热插拔技术
为了保证容错系统具有高可靠性,必须尽量减少系统的平均修复时间MTBR。要做到这一点,在设计上应努力提高单元的独立性、可修复性、故障可维护性。实现故障部件的在线维护和更换也是冗余技术的重要组成部分,它是实现控制系统故障部件快速修复技术的关键。部件的热插拔功能可以在不中断系统正常控制功能的情况下增加或更换组件,使系统平稳地运行。
5)故障隔离技术
冗余设计时,必须考虑工作、备用部件之间的故障应该做到尽可能互不影响或影响的概率相当小(0.01%),即可认为故障是隔离的。这样可以保证:处于备用状态的部件发生故障时,不会影响冗余工作部件或其他关联部件的正常运行,保证冗余的有效性。
3:冗余技术在控制系统中的应用实现分析
通过控制系统冗余原理与方法的具体分析可以看到,系统的可用性在很大程度上取决于那些MTBF值较低而能对系统正常运行造成重大影响的部件,如主控制卡、网络、电源、通讯转发卡等。在系统设计中对关键部件进行冗余设计,可以大大提高系统的可用性。
下面以SUPCON JX-300X 为例分析冗余的实现方式。
SUPCON JX-300X 型集散控制系统[1]的各个部件的冗余,实现了从电源、主控制器、过程控制网络,直至I/O卡件的冗余。
JX-300X型DCS采用全智能化、全数字化设计,在此基础上成功地实现了卡件的热插拔、故障诊断、信息同步等前文提到的各项技术。该系统采用典型控制系统三层模型,每个层次内均可冗余配置,而层次之间采用全冗余连接。即整个系统内以冗余过程控制网络(SCnet)和冗余现场I/O总线(SBUS)为高可靠的连接通道,系统内各个部件的运行和部件之间点对点连接都可冗余。
根据控制系统内各个部件功能定位的不同,采用了具体方式有所差别,具体策略为:
1)主控制卡的冗余
主控制卡是整个系统的核心控制单元,完成系统的控制任务。而冗余技术各个设计要点在此得到充分应用。互为冗余的两块主控制卡软件、硬件完全一致,它们执行同样的系统软件和应用程序,在工作/备用冗余逻辑电路的控制下,其中一个运行在工作状态(工作卡),另外一个运行在备用状态(备用卡),如图2所示。工作卡和备用卡之间具有公共的冗余逻辑控制电路和专用的高速对等冗余通讯通道,同时也可以通过I/O总线和过程控制网络进行信息交互或故障诊测。互为冗余的主控制卡都能访问I/O和过程控制网络,备用模式下的主控制卡执行诊断程序,监视工作卡的状态,通过周期查询工作卡件中的数据存储器,接受工作卡发送的实时控制运行信息。备用处理器可随时保存最新的控制数据,以保证工作/备用的无扰动切换,但工作模式下的主控制卡起着控制、输出、实时过程信息发布,等决定性的作用(具有发言权)。冗余技术的关键在于实现信息同步,而信息同步的最终目的是为了实现冗余部件之间无扰动切换。我们把信息同步的方法分为“自然同步”和“强制同步”。
互为冗余的两个主控制卡作为一个整体与外界交换信息(网络通讯、I/O通讯 ),共享进入这个整体的输入信息,这就是冗余部件的同一性(也可以称为单一性)。对外输出信息时工作卡掌握主动权,代表这个整体发言,即冗余的协同性。通俗地讲,两个互为冗余的部件,对于用户使用和外部控制对象而言,可被视为一个整体。
为了保证互为冗余的两个卡件具有平等获取外部信息(I/O通讯、网络通讯)的权利,冗余部件具有同样的通讯接口,保证卡件内输入信息的一致。冗余的两块卡件有各自的通讯通路,只要保证相同的输入信息在两个通信通路上同时进行传输,两块卡件就可以获得相同的信息。这种凭借外部设备实现输入信息的同步称为“自然同步”。“自然同步”发生在冗余系统和外部设备之间。工作卡掌握主动权,代表整体发言,并通过冗余通信将各种状态信息传送给备用卡,达到控制任务的同步,这就是“强制同步”。“强制同步”通过冗余通信使备用卡内部控制状态与工作卡保持一致,它发生在互为冗余的卡件之间。根据变量特性的不同,具体采用的同步方式也各不相同。
2) 电源系统冗余。
电源是整个控制系统得以正常工作的动力源泉,一旦电源单元发生故障,往往会使整个控制系统的工作中断,造成严重后果。要使控制系统能够安全、可靠、长期、稳定地运行,首先稳定的供电必须得到保证。JX-300X型DCS采用可热插拔的冗余电源,正常工作时,两台电源各输出一半功率,从而使每一台电源都工作在轻负载状态,有利于电源稳定工作。当其中一台发生故障,短时由另一台接替其工作,并报警。设计为可热插拔的冗余电源,这样系统维护时可以在不影响系统正常运行的情况下更换故障的电源。
3) 网络系统冗余。
采用冗余网卡和冗余网络接口。正常工作时,冗余的两条数据高速通路同时并行运行,自动分摊网络流量,并考虑了负载均衡的冗余设计,使系统网络通信带宽提高。当其中一路故障(网卡损坏或出现线路故障)时,另一路自动地承担全部通信负载,保证通信的正常进行。
4)冷却系统冗余。
利用控制柜内可自动切换的冗余风扇,对风扇和机柜内温度进行实时监测,发现工作风扇故障或柜内温度过高时都会自动报警,并自动启动备用风扇。
5) 信息冗余。
除了硬件部件的冗余,JX-300X型DCS还采用了信息冗余技术,这也是提高系统可靠性的一个重要手段。信息冗余技术是指在通信过程中或存放组态信息(重要信息)时,利用增加的多余信息位提供检错甚至纠错的能力。该系统中SBUS总线通讯和SCnet控制网络都采用循环冗余码校验(CRC)方法。而重要组态信息(如系统配置)在主控制卡内的存放采用1:1冗余存放,使重要信息具备故障(出错)自我恢复能力,保证系统运行过程中重要信息的安全性。
通过对以上关键部件的冗余设计,可以保证系统具有很高的可用性。
MTBF,即平均无故障时间,英文全称是“Mean Time Between Failure”。是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。磁带机产品的MTBF值不应低于200000小时。
通常,我们在产品的手册或包装上能够看到这个MTBF值,如8000小时,2万小时,那么,MTBF的数值是怎样算出来的呢,假设一台电脑的MTBF为3万小时,是不是把这台电脑连续运行3万小时检测出来的呢?答案是否定的,如果是那样的话,我们有那么多产品要用几十年都检测不完的。其实,关于MTBF值的计算方法,目前最通用的权威性标准是MIL-HDBK-217、GJB/Z299B和Bellcore,分别用于军工产品和民用产品。其中,MIL-HDBK-217是由美国国防部可靠性分析中心及Rome实验室提出并成为行业标准,专门用于军工产品MTBF值计算,GJB/Z 299B是我国军用标准;而Bellcore是由AT&T Bell 实验室提出并成为商用电子产品MTBF值计算的行业标准。
MTBF计算中主要考虑的是产品中每个器件的失效率。但由于器件在不同的环境、不同的使用条件下其失效率会有很大的区别,例如,同一产品在不同的环境下,如在实验室和海洋平台上,其可靠性值肯定是不同的;又如一个额定电压为16V的电容在实际电压为25V和5V下的失效率肯定是不同的。所以,在计算可靠性指标时,必须考虑上述多种因素。所有上述这些因素,几乎无法通过人工进行计算,但借助于软件如MTBFcal软件和其庞大的参数库,我们就能够轻松的得出MTBF值。
其实,MTBF值如何算出并不是我们所关心的问题,我们应该把重点放在一个产品的MTBF的值到底有多少上,对于用户来讲,应该选用MTBF值高的产品。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !