仪表和电气 (I&E) 维护对生产企业的重要性不言而喻。回顾工厂的保护层设计,你会发现仪电设备是控制系统和几乎所有其他保护层的一部分。仪电系统运行及维护不到位产生的累积影响,可能导致重大工艺安全事故的发生。
极具挑战的是,在仪电系统的维护管理上,维护策略、管理程序与技术标准都是全厂性的。因此仪电设备可靠性的问题是系统性的,将会影响整个装置过程安全表现。
今天我们将以二战以来欧洲最大的火灾的邦斯菲尔德油库事故(Buncefield)为例,探讨如何系统性评估工厂仪表维护管理的完整性,重点关注组织流程、工作实践、人员能力及环境影响。
2005年12月11日,英国第五大油库-邦斯菲尔德(Buncefield)油库发生爆炸,后续引发的爆炸及火灾摧毁了23个大型储油罐周围装置及商业设施。大火持续燃烧了大约5天才完全扑灭,事故造成43人受伤,约2000多名居民撤离,直接经济损失2.5亿英镑。
油库事故前后现场照片对比
参考:COMAH, Buncefield: Why did it happen?, 2011
我们可以通过如下视频了解事故发生的过程:
调查显示,事故发生的两个直接原因均与仪表维护相关:
1
ATG伺服液位计失灵
8月31日到12月11日发生14次类似故障
故障一直没有解决,也没有找到故障原因
DCS上的液位“冻结”,并没有被及时发现
2
高液位检测开关(HLS)功能失效
固定测试杆的挂锁一直没有安装
测试人员不了解需要挂锁以固定测试杆
参考:MIIB Final Report Volume1, 2008
美国化工过程安全中心(CCPS)在2017年出版的《Guidelines for Safe Automation of Chemical Process》中,研究了大量控制系统及仪表自动化相关的事故案例。这些事故的共同点不仅仅是高昂的成本和重大的影响。而且不同于与常见的单一原因-后果,这些事故通常存在多种原因和潜在条件。在大多数情况下,事故并不是突然发生的故障,而是一系列以危险方式排列的不断演变的条件,例如控制和监测的仪表系统无法正常工作,操作员误解或忽略了可用数据,工厂人员对可能的运行异常延误了调查和纠正。
参考:CCPS, Guidelines for Safe Automation of Chemical Process, 2017
英国安全与健康执行局(UK HSE)对1991年至2002年间的718起LOPC事故(初级封闭性丧失)进行了统计分析,超过30%的事故原因为维护测试相关。
参考:HSL, Loss of Containment Incident Analysis
那么,
如何衡量工厂的工艺安全管理?
API-754定义的工艺安全绩效指标体系中,下部的两层是领先指标,衡量了企业的操作纪律、设备完整性和安全文化。过往的事故案例则表明,一级或二级工艺安全事故的发生,通常是由于第3层和第4层指标相关事件的管理不当,并且缺乏识别及纠正管理系统的机制。
参考:API RP 754-2010 《石油化工企业工艺安全绩效指标》
对于仪表及控制系统,IEC-61511(及GB/T-21109)中都对安全仪表系统(SIS)的可靠性提出了管理要求,在ISA-TR84.00.04中则从SIS全生命周期管理的角度细化了衡量指标。
参考:ISA-TR84.00.04-2011
我们必须清醒的认识到,最终造成事故的原因是系统性的失效,组织管理的失策,而非归因于仪表维护人员。对于仪表维护人员而言,他们的困扰往往来自于一些执行层面的困难,下表中列举了一些典型示例。
詹姆斯·里森(James Reason)于1990年在著名的心理学专著《Human error》中, 第一次提出了瑞士奶酪的概念模型,2003年他在《Managing Maintenance Error》中进一步提出了改进版的分析模型。
Reason模型为我们关注系统原因提供了一个有效的方法,因为只有在关注“人”的同时更去关注“系统”,真正找到系统的隐患后才能预防事故。瑞士奶酪模型的内在逻辑是:事故的发生不仅有一个事件本身的反应链,还同时存在一个被穿透的组织缺陷集,事故促发因素和组织各层次的缺陷(或安全风险)是长期存在的并不断自行演化的,但这些事故促因和组织缺陷并不一定造成不安全事件,当多个层次的组织缺陷在一个事故促发因子上同时或次第出现缺陷时,不安全事件就失去多层次的阻断屏障而发生了。
对仪表维护管理的系统性评估,也将从组织流程、工作场所、人员能力以及使能条件四个方面进行。
参考:James Reason, Managing Maintenance Error, 2003
1
组织流程
组织文化决定了什么是重要或不重要的,影响管理决策,以及日常工作的计划、预测、沟通、实施和审核。 消极的组织文化往往对工作场所的不良实践和仪表设施可靠性保持较高的容忍度。
常见的一种情形是,生产车间与仪表车间需要有效的沟通以保证全面解决可靠性问题;不良的沟通渠道,人为建立的壁垒则可能导致长期未解决的设备故障存在。
2
工作场所
工作场所的实践,定义了如何执行仪表维护。 现实情况中,如笼统的操作程序、工程规范缺失、未更新的程序或人机界面设计的不合理,都增加了出错的可能性。 如果企业的仪表测试程序中,连所需测试的功能都没有完整定义,即使维护人员的技能足够,也可能导致失误。
3
人员能力
拥有技能和经验的人员是完成仪表维护工作必不可少的,但现实中仪表车间的高流动率,往往难以确保人员对系统设计有深入的了解,而这些对于解决技术问题或评估变更有明显影响。仪表人员工作负荷过高、疲劳或健康状况不佳则可能进一步影响决策,这些都抵消了人员能力的优势。
4
使能条件
借用保护层分析(LOPA)中的概念,我们可以定义出那些可能促进保护层失效的影响因素。这可能是由于容忍违规行为的组织文化导致的,例如过高负荷工作量和紧迫的时间压力、现场管理不善和不恰当的工具。或者由于管理资源不足导致的例如PPE不合理、维护现场灯光不足、设备标识不清等,这些因素都可能增加发生错误的可能性。
由此我们可以细化出对仪表维护管理的细化评估标准:
上述所讨论的组织流程、工作场所、人员能力及相关使能条件,都是环境影响的组成部分。在涉及人员操作的事故中,还需要考虑个人状态的影响,差错的发生往往是个人精神状态与环境影响的综合作用。
回到文章开始我们所讨论的Buncefield油库爆炸事故,想要避免ATG伺服液位计与HLS高液位开关同时失效的发生,单一依赖于硬件的可靠性并不足够。
良好的可靠性文化、生产与检修之间的顺畅沟通、胜任工作并了解新技术的人员都对保护措施的有效性起着重要的影响。
Buncefield事故中还揭示了更多仪表控制相关的问题,如报警画面的设置、紧急切断功能的测试、系统访问权限的合理性以及输送量控制权限的设定等。我们将在以后的文章中再续解读。
参考:
1. HSL, Loss of Containment Incident Analysis, 2003
2. CCPS, Guidelines for Safe Automation of Chemical Process, 2017
3. API RP 754-2010 《石油化工企业工艺安全绩效指标》
4. ISA-TR84.00.04-2011
5. James Reason, Managing Maintenance Error, 2003
6. COMAH, Buncefield: Why did it happen?, 2011
7. The Buncefield Incident: The final report of the Major Incident Investigation Board Volume1, 2008
来源:中安咨询在线
中国化学品安全协会
编辑:静安
声明
1
本平台接收会员单位、行业企业、高等院校、安全评价机构等社会单位投稿,稿件内容经审核符合要求的,将免费在本平台及中国化学品安全协会官网(http://www.chemicalsafety.org.cn/)上进行宣传。投稿邮箱ccsa@ccsa.net.cn,来稿请标注“微信投稿”字样。
2
本平台对转载、分享、陈述、观点保持中立,目的仅在于传递更多信息,并不代表本平台赞同其观点和对其真实性负责。如发现政治性、事实性、技术性差错及版权问题等错误信息,请及时联系我们(电话:010-64464070),感谢支持!
长按图片 关注我们