安全工程(safety engineering)是一門確保工程系統提供足夠安全(safety)程度的工程科學。安全工程和系統工程、工業工程及其子領域系統安全工程密切相關。安全工程可確保一個生命關鍵系統的行為符合需求,甚至可能在部份零件損壞時仍可符合需求。
簡介
安全工程的主要目標是管理風險,消除風險或降低到可以接受的水準。風險是由失效事件機率及其結果嚴重性所組合而成[1]。例如特定失效結果的嚴重性可能是人員傷亡、財產損失,也可能只是讓人困擾,沒有其他影響。失效事件機率可能是頻繁、有時發生或是很少發生。失效的可接受程度和上述二者有關,而失效事件機率會比其結果嚴重性要難預測,因為有許多因素會造成失效,例如機械失效、環境因素以及操作錯誤。
安全工程設法減少失效的頻率,並確保一旦失效發生時,其後果不致於造成人員傷亡。例如橋樑設計可乘載的最大荷重可以大於會通過的最大卡車重量,這就減少了橋樑超載的可能性。許多橋樑都設計有冗餘的荷重結構,因此即使有其中一個結構元素失效,可以由其他結構來荷重,這就減少了橋樑超載結果的嚴重性。
理想上,安全工程是從系統設計初期就開始了,安全工程師會考慮在哪些情形下可能會發生哪些不想要出現的事件,及有關事故風險的計劃。若在設計初期可能會在設計規格提出安全緩解的需求,針對既有的設計或是正在服務的產品則會修改設計,提高系統的安全性。有可能是完全消除某一種類的危害,也有可能只是降低事故的風險。常常安全工程師被賦與的任務是證明某個既有的系統是安全的,而不是去更改設計,若是在開發後期甚至完成後才發現顯著的安全問題,其矯正措施可能會相當昂貴,可能是大量金錢的支出,甚至是造成人員傷亡或是環境的破壞。
有些機構不是採用上述傳統的方式,而是用積極及已驗證可行流程的觀點來處理安全工程,此觀點稱為系統安全。系統安全的理念可以適用在複雜系統及關鍵系統,像是商業客機、複雜武器系統、太空船、鐵路及運輸系統、航管系統以及其他工業上的複雜系統及關鍵系統。這種系統安全的方法及技術是藉由主要工程紀律及設計團隊的組合,在設計過程中可以預防、消除及控制危害及風險。由於現代的系統中,越來越多的機能是由軟體來控制,因此軟體安全也是快速成長的領域之一。軟體可以使系統更加安全,但也可能使系統處於一個危險的狀態[2]。系統安全及軟體安全都是安全工程領域中的一部份,其概念是藉由許多不同種類的危害分析來識別危害、確認危害、驗證計,並且評估在系統認證之前,是否需要指定新的安全功能或程序,策略性地降低風險到可接受的程度。
有時降低風險不只是設計階段的考量,也可以適用在保養階段。在安全工程及可靠度工程中有以可靠性为中心的保養(RCM),是分析系統的潛在失效,並決定如何保養可以降低失效的風險。此方法廣泛的用在飛機上,其中也包括了對可更換及維修的零件中失效模式的了解,以及如何偵測或預測可能會發生的失效。汽車車主在加油或是更換剎車時其實就在進行類似的保養。即使是簡單的加油,就和失效模式(因沒有汽油產生的失效)、檢測方式(油表)及保養行動(將油注入油箱)有關。
對於大型的複雜系統,依照失效分析可能會有數百個到上千個保養的方式。其保養可能是根據各零件的基本條件(例如儀表讀值或是閥有洩漏)、一些複雜的條件(例如某元件在運作一百小時後,損壞的機率是95%)、或是需要根據檢測決定保養方式(例如金屬疲勞)。以可靠性为中心的保養會根據每項保養對安全性、任務准备度、操作准备度及失效時維修成本上的風險貢獻加以分析,最後會將所有的保養規劃在固定的保養時間內進行。規劃的過程可能會增加複雜性,因為可能將某項保養的週期加長,因此提高了風險,但是也將另一項保養的週期縮短,因此降低風險,其結果會是綜合性的保養計劃,目的在減少操作時的風險,並確保其操作准备度及可用性都在可接用的水準。
分析技術
分析技術可以分為二種:非量化的及量化的,二種方法的目的都是找出系統層級的危害及個別零件失效之間的關係。非量化方法著重在回答「哪一個零件一定要失效,才會造成系統危害?」,量化方法則是估計失效機率、失效頻率及後果嚴重性。
傳統上,安全分析技術主要是只靠安全工程師的技能及專業意見。最近十多年來以模型為基礎的技術越來越受到注意。和傳統的作法不同,模型為基礎的技術試圖藉由系統的某種模型推導失效和危害之間的因果關係。
傳統的安全工程分析技術
二個最常見的安全工程分析技術分別是失效模式与影响分析及故障樹分析。二個技術都是設法找出問題,並設法對抗失效,就像风险概率估计所做的一様。WASH-1400報告也稱為核反應爐安全報告(Reactor Safety Study)或羅斯苗遜報告(Rasmussen Report),是1974年由美国原子能委员会提出的報告,也是最早用這類技術完整分析商用核電廠的研究[4]。
失效模式与影响分析
失效模式与影响分析(FMEA)是一個由下往上的、归纳式的分析方式,在二十世纪40年代后期,美国空军正式采用了FMEA[5]。
失效模式与影响分析可以應用在機能層級或組件層級。機能層級的失效模式与影响分析中,會識別系統及設備中每一個機能的失效模式,一般會配合機能方塊圖進行。組件層級的失效模式与影响分析則是識別每一個零件(如閥、連接器、電阻、二極體)的失效模式。找到失效模式後,會描述失效模式帶來的影響,根據機能或零件的失效率及失效模式指定其機率。
軟體的失效(是否有程序错误)很難量化,而且會影響硬體的失效模式多半不會影響軟體,像溫度、壽命及製造變異會影響電阻的特性,但不會影響軟體的特性。
二個有相同影響的失效模式可以合併,並在失效模式与影响分析中簡述。若和嚴重性分析(criticality analysis)合併時,失效模式与影响分析會變成失效模式效應與關鍵性分析,簡稱FMECA。
功能 | 失效模式 | 影响 | S (严重程度分级) |
原因 | O (出现频度分级) |
当前的控制措施 | D (检查分级) |
CRIT (关键特性) |
RPN (风险优先级数) |
行动措施建议 | 责任及目标完成日期 | 已采取的行动措施 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
填充浴盆 | 高水位传感器出现差错 | 液体溅洒到客户的地板上 | 8 | 水位传感器已失效 水位传感器已断开 |
2 | 根据填充到低水位传感器所需的时间,填充超时 | 5 | N | 80 | 针对在高低水位传感器之间中途额外增加传感器,进行成本分析 | 约翰 2010年10月10日 |
故障樹分析
故障樹分析(FTA)是一個由上往下的,演绎式的分析方式,是找出最上層的不希望發生事件(像墜機、爐心熔化等)和最底層的基本事件(像零件失效、人操作錯誤、外部事件等)之間的邏輯關係。最底層的基本事件藉由邏輯閘一直連結到最上層的不希望發生事件。其目的是識別是否可以完全避免最上層事件的發生,或是使最上層事件的發生機率降低,並驗證是否有達到安全目的。
故障樹和成功樹(success tree)在邏輯上恰好相反,因此可以由成功樹配合德摩根定律推導,而成功樹又和可靠度方塊圖有直接關係。
故障樹分析可以是定性分析,也可以是量化分析。若沒有失效及事件機率的資訊,定性的故障樹可以用最小割集(minimal cut sets)來分析。若任何一個最小割集中包括了某一個單一的基本事件,表示最上層的事件會因為一個基本事件而造成。量化的故障樹一般會計算最上層事件的機率,一般需要像電腦軟體的協助.像Idaho国家实验室開發的SAPHIRE或是電力科學研究院的CAFTA。
有些產業會同時應用故障樹及事件樹。事件樹是從不希望發生的初始事件(關鍵電源斷電、零件破壞)開始,往下確認是否會造成其他系統的事件。每多考慮一個事件,事件樹就會多一個節點,往下有分枝,以及各分支的事件發生的機率。因此可以看初始事件會衍生的其他事件以及發生的機率。
安全認證
在一個通過安全認證的系統中,每109小時連續運轉的平均失效次數不能大於1。一般西方的核反應爐、醫療設備及商用航空器是以此等級進行認證。相較於失效時帶來的人員傷亡,這些產品認證衍生的費用是合理的(根據美国联邦航空管理局針對航空器訂定的联邦航空条例)[6][7][8]。
避免失效
若是識別出一個失效模式,可以在系統中加入額外的設備或冗餘設備,以緩和失效的影響。例如核反應爐中有危險的輻射,而且失控的核反應會產生大量熱量,會造成堆芯熔毀,也會熔化周圍的物質。因此核反應爐有緊急的爐心冷卻設施使爐心的溫度下降,有屏蔽層避免釋放輻射,也有工程屏障(多半是由核反应堆安全壳進行多層的防護)避免放射物質外洩。一般在安全關鍵系統中,若出現單一事件或單一零件失效,不會產生災難式的失效模式。
大多數生物的器官都有冗餘,例如多個器官、二個手及二個腳等。
針對失效,多半可以設計失效轉移(fail-over)或是冗餘來處理,整合在整個系統中。
安全和可靠度
安全和可靠度不同。醫療設備會設計成具有失效安全的特性,若一個醫療設備失效,仍然會保持在安全的狀態,而且醫生會設法找到其他的替代方案。但若飛機的飛行控制系統失效,很可能會沒有替代方案。電力系統網路在設計時需同時考量安全及可靠度。電信系統主要是考量可靠度,但若施打緊急電話(如美國的911)時,就需考量安全性的問題。
安全性和可靠度之間的關係可以用機率風險評估來描述。零件可靠度(一般會定義為零件的失效率)及外部事件的機率都會用在量化的安全評估方法(像故障樹分析)。其他和機率有關的方法也用來計算系統的平均故障間隔(MTBF)、可用度,以及任務成功機率或失敗機率。可靠度分析的範圍比安全性分析的範圍要廣,因為可靠度分析也會考慮非關鍵性的失效。而在安全性分析中,可以接受非關鍵性系統有較高的失效率。
一般而言,安全性無法只從零件的可靠度來達到。一般會希望災難性失效的機率只有每小時10−9次,但這也只有像電阻器或電容器等非常簡單的元件才有這麼低的失效率。一般有上千或上萬個零件的複雜系統,其平均故障間隔約在10,000到100,000小時之間,代表其故障率是每小時10−4至10−5次。若某個系統失效是災難性的,要達到失效率每小時10−9次的實務作法是利用冗餘的方式。若有二個相同功能,但有獨立失效模式的冗餘系統,每個系統的MTBF為100,000小時,因為二個系統都失效時,整個系統才會失效,其失效率可以到每小時10−10次。
若是系統中不太可能增加設備,比較可行方式是設計成是固有失效安全的系統,也就是讓系統的失效模式不會是災難式的。固有失效安全的概念常用在醫療設備、交通及軌道信號、通訊設備及安全設備中。
典型的作法是調整系統,使得常見的失效模式可以用安全的方式停機(在核電廠中,此作法稱為被動式核能安全,而且所涵蓋的不只是常見的失效模式)。不然,若此系統包含一個像是電池或是轉子等危害來源,也可以將此危害從系統中移除,因此此系統就不會有災難型的失效模式。美國國防部的系統安全性標準實務(MIL–STD–882)在設計選擇中將消除危害因素列為最優先的項目[9]。
有些系統因為需要持續的可用性,無法作到失效安全。例如在飛行中引擎失去推力是非常危險的,此情形下需要使用冗餘、容錯設計或是復原程序等作法(例如使用多個獨立控制、獨立供油的引擎)。這也可以讓系統較不容易受到一些變異的影響,包括可靠度預測誤差或是個別零件品質造成的不確定性等。另一方面,在確保系統層級的可靠度上,失效偵測及修正,以及共因失效的避免變得越來越重要 [10]。
遏制失效
在實務上也會用遏制或隔離的方式處理失效。像在管路中,常用隔離閥來隔離可能會損壞或需要定期保養的元件(像泵浦、儲存槽及控制閥等)。此外,幾乎所有油類或其他危險化學藥品的儲存槽,都會有將儲存槽完全包住的安全壳屏障(containment barrier),以避免災難性的儲存槽失效。在長的管路中,也會在固定距離安裝可遠端關閉的閥,用來隔離泄漏。在關鍵性的電子系統或電腦軟體中也會設計類似的故障隔離邊界(fault isolation boundary)。所有遏制系統的目的都是提供方法可以緩解失效的影響。
甚至有時故障隔離是指可以隔離偵測到的失效,因此可以將系統復原成未失效的狀態。隔離水準可以用來顯示哪些失效可以復原(一般是用安裝可更換冗餘的模組,在失效時立刻切換到其他未失效的模組。
相關條目
參考資料
- ^ 林宏榮、陳信誠. 本院風險管理之回顧與展望 (PDF). 奇美醫訊95期. 奇美醫院. [2013-08-30].[永久失效連結]
- ^ Lutz, Robyn R. Software Engineering for Safety: A Roadmap (PDF). The Future of Software Engineering. ACM Press. 2000 [2013-09-07]. ISBN 1-58113-253-0. (原始内容 (PDF)存档于2006-09-02).
- ^ Kokcharov I. Structural Safety http://www.kokch.kts.ru/me/t6/SIA_6_Structural_Safety.pdf (页面存档备份,存于互联网档案馆)
- ^ 危险化学品安全评价的现状及对. 东至县安全生产监督管理局. 2008-07-21 [2013-09-03]. (原始内容存档于2015-10-01).
- ^ Procedure for performing a failure mode effect and criticality analysis, November 9, 1949, United States Military Procedure, MIL-P-1629
- ^ ANM-110. System Design and Analysis (pdf). Federal Aviation Administration. 1988 [2011-02-20]. Advisory Circular AC 25.1309-1A. (原始内容存档 (PDF)于2014-02-11).
- ^ S–18. Guidelines for Development of Civil Aircraft and Systems. Society of Automotive Engineers. 2010 [2013-09-03]. ARP4754A. (原始内容存档于2018-01-19).
- ^ S–18. Guidelines and methods for conducting the safety assessment process on civil airborne systems and equipment. Society of Automotive Engineers. 1996 [2013-09-03]. ARP4761. (原始内容存档于2009-12-25).
- ^ Air Force Materiel Command Safety Office. Standard Practice for System Safety (pdf). D. 美國國防部. 1998 [2010-03-14]. MIL–HDBK–882D. (原始内容存档 (PDF)于2020-10-01).
- ^ Bornschlegl, Susanne. Ready for SIL 4: Modular Computers for Safety-Critical Mobile Applications. MEN Mikro Elektronik. 2012 [2012-05-29]. (原始内容 (pdf)存档于2013-06-18).
外部連結
- American Society of Safety Engineers(官方網站)
- Board of Certified Safety Professionals(官方網站)
- System Safety Society(官方網站)
- The Safety and Reliability Society(官方網站)
- Canadian Society of Safety Engineering(官方網站)
- Grunske, Lars; Kaiser, Bernhard; Reussner, Ralf H. Specification and Evaluation of Safety Properties in a Component-based Software Engineering Process. Springer. 2005 [2013-09-07]. (原始内容存档于2019-08-18).
- US FAA. System Safety Handbook. Washington, DC: US FAA. 30 December 2000 [2013-09-07]. (原始内容存档于2017-01-21).
- NASA. Agency Risk Management Procedural Requirements. NASA. 2008-12-16 [2013-09-07]. NPR 8000.4A. (原始内容存档于2012-03-02).
- Leveson, Nancy. Engineering a Safer World - Systems Thinking Applied To Safety. Engineering Systems. The MIT Press. 2011 [2012-07-03]. ISBN 978-0-262-01662-9. (原始内容存档于2020-11-07).