作者:admin 時間:2022-12-19
前言
故障樹分析,作為一種非常傳統的工具,從1960年代被創造出來,經過了歲月的洗禮,經久不衰,在現代的性分析工作中,仍發揮著重要的作用。
這里以故障樹分析基本知識和方法論為起點,回歸故障樹的建樹本源和基本原則,如基本概念失效機制、失效模式、失效影響的差異;主要的、次要的和指令的組件失效模式分類原則;建樹時使用I-N-S, SS-SC和P-S-C原則;最小割集定義和分析等。
這些基本理論為應用好故障樹分析這個傳統的性分析工具打下堅實的基礎。。
故障樹分析(Fault Tree Analysis,簡稱FTA)是一種具有推理性(deductive)的或福爾摩斯(Sherlock Holmes)式的系統性評估技術。FTA最主要也是最重要的目的是通過關注某個特定的不期望發生事件,自上而下逐級進行推理分析,建立邏輯因果關系圖模型,進而對導致不期望發生事件的產生根源,各根源之間的關系以及發生概率等作定性或定量的系統分析??梢哉f,FTA模型是從故障的角度,對系統設計的一種映射。
在系統分析中FTA通常有兩類應用。最常見的一類用于設計評估,即主動式FTA(proactive FTA),通過預測和預防未來可能出現的問題來影響系統設計,其在系統研發階段進行。另一類應用是事故調查,即被動式FTA(reactive FTA),通常在事故或災難已經發生后進行。這兩類應用在方法上區別,除了被動式FTA使用災難證據以及證據事件門。
FTA在設計決策中發揮重要作用,主要有根源分析,風險評估和設計評估。
作為系統分析工具,FTA提供了對復雜系統和系統之間關系的評估,圖像化模型和概率模型。
作為系統評估工具,FTA主要是針對性,可靠性和系統性能進行評估。
作為系統性分析工具,FTA分析關系到確保識別和控制系統/設備完成其預期的性功能。通過定性和定量的評估,其主要作用具體包括:
便于技術/審定當局的評估和評審。
評估設計更改對性的影響。
量化頂事件的發生概率。
向低一層級事件分配概率預算。
同時提供定性和定量的評估,將研發錯誤對不期望事件的貢獻作可視化的展現。
評估單個和多個故障影響。
評估暴露時間間隔,潛伏時間,以及“處于風險中”的時間間隔對系統的綜合影響。
將可能的共因邊界作可視化的展示。
評估共因故障源。
評估失效-特性(容錯和容差)。
歷史
1961-1962年,貝爾實驗室的H.Watson和Allison B. Mearns開發了故障樹分析技術,并在民兵制導系統中應用。
之后,波音公司的DaveHaals認識到FTA的強大功能并將其應用到整個民兵武器系統的定量分析中。
商用航空工業和核工業在認識到該技術作為分析工具的強大作用以及成功后,也開始應用于各工程領域的性評估工作。隨著不斷的實踐應用和計算機技術的發展,FTA已逐步形成了一套完整的理論、方法和應用分析程序,并且得到不斷的改進。
可以說FTA已經成為當今系統性評估中最重要的邏輯和概率分析工具之一。
故障樹分析方法論
FTA基本過程概述
如圖1所示,構建成功的故障樹一般需要包括以下步驟:
確定FTA目標;
定義FT頂層事件;
定義FT范圍;
定義FT分解;
定義FT基本原則;
構建FT;
評估FT;
解讀/介紹結果。
其中,前5步可歸納為對該FTA的問題界定。建樹過程中大多數步驟是串行的,而第3-第5步可以同步進行。在構建FT和評估FT時,通常會產生對第4步定義FT分解和第5步定義FT基本原則的反饋。
圖1 FTA基本過程
問題界定和準備
1. 確定目標
確定目標是成功FTA的第一步。成功的目標設定應從系統失效的角度進行描述。例如,如果總目標是評估某個任務的不同設計,那么需要識別并定義特定失效,即那些可以描述任務失敗特征的并且可以用來分析評估設計的特定失效。
定義目標的同時,需要充分理解系統設計和運行,并且需要獲取當前可用的設計數據,包括結構圖、原理圖等等。
2. 定義頂事件
一旦確定FTA分析目標,頂事件相應也得到了確定。
頂事件定義了有待分析的系統失效模式,是不期望發生的事件,有待分析得出其失效原因,并確定其失效概率。
頂事件的定義非常關鍵,其直接指導了余下所有分析工作。若頂事件定義不正確,則FTA整個分析就是錯誤的,并導致錯誤的決策。因此,正確定義和理解分析目標和待解決問題非常重要。
定義頂事件的基本原則如下:
為了定義頂事件,先定義事件發生的準則。對于系統失效,先定義系統成功準則。
確保頂事件與待解決的問題和分析目標保持一致。
若對頂事件定義沒有把握,先定義可以覆蓋頂事件的替代定義,然后對這些替代定義進行評估選擇。
3. 定義范圍
故障樹實際展現的是在給定時間,給定構型和給定邊界下給系統拍攝的一張快照。
與所有模型化方法一樣,故障樹在建樹前也需要定義分析范圍,或分析邊界(boundaries),即確定哪些在分析內,哪些在分析外。此外還有一些邊界上的貢獻者,它們的定義將影響分析內貢獻者狀態。這些即是接口狀態,需要以假設方式作為系統輸入進行定義。在建樹過程中,邊界可能會發生改變,需要對這些邊界進行跟蹤、管理和記錄。
故障樹的范圍可能包括特定的設計版本,待分析系統相關的歷史時間,組件的初始狀態,系統假設輸入,系統接口等。例如,假設需要分析飛控系統的失效。當定義分析范圍時,需要確定該飛控系統的設計版本,運行模式,需考慮哪些組件失效,以及與飛控系統的接口(如,支持系統/能源系統,作動信號等)的失效模型或假設這些接口是完好的。
4. 定義分解程度
如果不對分解程度(或稱建樹深度)做初步規劃和定義,不僅可能在建樹過程中迷失目標,更可能建成龐大繁瑣喪失結構化又失去分析意義的無用樹。因此,定義故障樹的分解程度非常重要。
分解程度的一般原則是,建到足以識別功能依賴性的深度,或者是建到與可用數據和分析目標一致的深度。例如,如果頂事件是系統功能失效,一般分解到系統主要組件即可。如果需要做定量分析,則以獲得對頂事件估計為目標,在考慮現有數據和其他信息的前提下,通常分解到有最佳可用概率數據的程度。
5. 定義基本原則
定義基本原則的主要目的是保證不同的人員在做不同故障樹分析時保持一致性。
建故障樹的最最基本原則就是“往小里想”(“Think small”),或者更地說是“往近處想”(“Think myopically”)。每次只想一小步,確保覆蓋所有的主要原因以及它們之間的關系,不要直接跳躍到基本原因事件?;驹瓌t涉及程序規定和命名方式,特定組件失效,人為差錯,共因失效等模式方面。主要的基本原則有:
描述原則:
完成每一個故障樹節點的基本數據;
所有事件框都要填寫,不得留白;
定義有意義的統一命名規范,為每一個故障樹節點作命名。
以故障的方式將描述寫入事件框;清楚地描述故障是什么以及在什么條件下發生。不要將故障和成功混在一起。使用狀態轉換語言描述故障。
“無奇跡”原則:如果某個組件的正常運行會傳播某個失效序列,則假設該組件運行正常。
“完成門”原則:在對所有輸入中的任一個做進一步分析前,所有輸入及邏輯門應得到完整的定義。
“不允許門對門”原則:門的輸入對象應合適地被定義為故障事件,門不應直接與其它門對接。
6. 建樹
l 失效機制(Failure Mechanism),失效模式(Failure Mode)和失效影響(Failure Effect)
FTA是自上而下逐級推理分析,因而通常對系統,子系統,組件進行層次化定義,目的是為了界定問題邊界和層級,便于分析的順利開展。在建故障樹時,失效影響,失效模式,失效機制這些基本概念在確定事件之間恰當的內在關系時非常重要。
當失效影響確定時,則關注為什么關心某個特定的失效,如,如果發生該失效對系統有什么影響?當對失效模式進行細節描述后,需要切實關注組件失效的哪些方面?當列出失效機制后,某個特定失效模式是如何發生的?失效機制即是失效模式得以發生的手段,反過來說,失效機制是更為基本原因產生的影響?;蛘哒f,失效機制產生了失效模式,而反過來,對系統運行產生了某些影響。
事件描述 | 系統 | 子系統 | 組件 | 元件 |
從子系統角度描述 | 失效機制 | 模式 | 影響 | |
從組件角度描述 | 失效機制 | 模式 | 影響 | |
從元件角度描述 | 失效機制 | 模式 | ||
直接原因 | 失效機制 |
表1 系統失效分析事件關系表
如表1所示,系統工程師,從系統的角度定義的失效模式;對子系統工程師而言,是他的失效影響,由子系統工程師去尋找導致該失效影響的失效模式。而對組件工程師而言,所有子系統和系統失效,都是代表了更別的失效影響,即是某個組件失效后導致的結果。組件工程師,從他的角度尋找組件的失效模式,而這個對于子系統工程師而言,就是導致某子系統失效模式的失效機制。
l 組件失效模式分類:主要的(Primary),次要的(Secondary)和指令的(Command)
任何組件的失效模式只有三種,即主要失效模式,次要失效模式和指令失效模式,如圖2,組件失效模式概念圖所示。
圖2 組件失效模式概念圖
主要失效模式指的是,在預期的環境條件下組件本身發生的故障。因此,主要失效是組件的固有失效,如舵面卡阻。對主要失效的建樹分解,是基于各組件獨立的假設,并應該分解到可識別的直接導致頂事件發生的基礎事件。
次要失效模式指的是,在不利環境下組件可能發生的故障。因此,次要失效是由于外力對組件的影響結果。對次要失效模式的建樹分解,要求對影響系統組件的外部環境有全面的了解,如過熱環境,振動,EMI等。對于某個組件的失效與其它組件的失效相關時,這類失效不是由于主要失效引起而是有其他原因。
指令失效模式指的是,由于特定失效導致的系統在非預期時間或地點發生的預期事件。即該事件是預期要發生的,但是發生的時間或地點不對,例如延遲。指令路徑是描述指令失效事件如何通過系統路徑的事件鏈。當完成分析后,可將故障樹和系統指令信號流圖做一對比分析,可以表明故障樹指令路徑代表了信號流沿著單線通過系統的過程。
l 基本方法論和步驟
故障樹的構建是一個不斷迭代的過程,從定義頂事件開始,在基本原則的指導下,反復應用基本方法論三個概念,逐級向下推理,確定各層級邏輯門的類型以及邏輯門的輸入條件,包括系統正常的和失效事件,直到所有事件是可識別的硬件失效,軟件失效和人為差錯這些基礎事件為止。
構建故障樹的基本方法論包括三個概念的應用,分別是:I-N-S,SS-SC,P-S-C概念。
1. I-N-S概念。應用該概念即不斷回答問題“引起該事件發生的直接的I(Immediate),的N(Necessary)和充分的S(Sufficient)原因有哪些?”。應用該概念,使得分析人員從不同角度確定2.3.1節所介紹的失效機制,失效模式和失效影響,逐步推進故障樹向下分解,從而避免分析人員跳躍性的思考,幫助將分析聚焦在識別原因——影響鏈(cause-effect chain)中的緊跟事件。
2. SS-SC 概念。應用該概念要求回答“該故障是組件失效嗎?”如果回答“是”,則將該事件歸為“組件失效狀態”如果回答是“否”,則將該事件歸為“系統失效狀態”。應用該概念,主要是為了區分“系統狀態SS(state-of-the-system)”和組件狀態“SC(state-of-the-component)”。如果是系統失效狀態,則重新應用概念1. I-N-S概念,繼續做進一步的狀態分解。而如果是組件失效狀態,則應用3. P-S-C概念,確定導致該組件的失效模式。
3. P-S-C概念。2.3.2節已介紹了組件失效模式分類的三種類型。如果通過應用SS-SC概念,確定是組件狀態,則對該組件應用P-S-C概念,即回答“該組件失效事件的主要的,次要的和指令的失效原因有哪些?”繼續推動故障樹的分解。
因此,故障樹的構建是一個不斷迭代的過程,如圖3故障樹構建步驟所示。
圖3故障樹構建步驟
構建故障樹的迭代過程就是不斷應用三個概念,提出三個問題,即I-N-S, SS-SC和P-S-C。在回答這些問題的同時確定邏輯門和門輸入。通過圖4,我們可以看出迭代過程在不斷向下推進的同時確定向上的原因——影響(cause-effect)關系。一般,建樹基本步驟如下:
充分理解和評估頂事件;
通過應用方法論,回答以下問題來識別確認所有可能原因:
是否直接的,的和充分的?I-N-S;
是組件狀態還是系統狀態?SS-SC;
如是組件狀態,是主要的,次要的還是指令的?P-S-C;
識別確認原因事件之間的關系以及原因——影響事件邏輯關系;
根據3得出的邏輯門和門輸入,構建該層級的樹;
再次確認邏輯關系,避免思維跳躍;
持續回顧并確認所有已識別的事件沒有重復;
針對下一事件,重復1-6步驟。
建樹關鍵點
在建樹過程中,除遵循基本原則和方法論外,有注意以下幾點:
如可能,在設計過程中盡可能早地應用;
沿信號流或邏輯流回顧系統;
描述的措辭應清楚,準確和完整;
核實確認所有框內描述內容沒有重復;
確保分析沒有跳躍錯過任何可能的失效事件;
尋求組件或失效事件的轉換狀態(如,“組件A沒有輸出信號”,“閥V1沒有輸入”)
7. 評估
評估FT,包括定性和定量評估。“最小割集”是非常重要的評估工具。定量評估,不僅計算出頂事件的發生概率,還包括主最小割集,以及各基礎事件對頂事件的貢獻程度。
l 割集、最小割集和割集階次
割集(Cut Set, CS),即導致頂事件發生的所有事件的集合,也稱故障路徑(a fault path)。
最小割集(MinimalCut Set, MinCS or MCS),即導致頂事件發生的最少數量基礎事件的集合。該集合中的事件不能再減少才能保證頂事件的發生。
割集階次(Cut SetOrder),CS中事件的數量。單階次CS是單點失效,兩階次CS表示該割集中有兩個事件,且是和的關系。
割集確定了導致頂事件的事故鏈中所有組件失效和/或事件組合,提供了概率計算機制,最重要的是,通過確定性問題相關組件,高概率等信息,判斷出系統設計的關鍵點和薄弱環節,進而指導設計。
最小割集的確定方法通常有MOCUS(Method of obtaining cut sets),由J. Fussell和W. Vesely創造,以及自下而上法(Bottom-up)。對于較大故障樹,可應用成熟軟件計算最小割集。
l 定性評估
故障樹本質上來說,是定性分析模型。故障樹分析一個最重要的定性分析結果就是:頂事件的最小割集。最小割集是可導致頂事件的基礎事件的最小組合。因此,最小割集將頂事件與其基礎事件原因直接聯系。最小割集代表了基礎事件可以導致頂事件的所有方式。也被叫做“最小失效集”。
通過對最小割集的分析可以獲得大量信息,例如:
低階次的MCS表明具有較高漏洞。單階次MCS(如單點失效)將導致最高的風險。即只有一個基礎事件的最小割集即單個失效或單個事件會引起頂事件發生。這些單個失效就是薄弱環節,需要升級和采取預防措施。
最小割集中的事件如果都具備相同的特性,則暗示了這些失效具有相關性,或會由于共因而破壞冗余。
高階次的MCS表明具有較低漏洞。高階次MCS(如,具有5個輸入的與門事件)具有相對較小的概率值因而表現出較低得系統風險。
對于MCS總數非常龐大的情況,分析人員應評估頂事件的累積風險。
定量評估
FT的定量評估主要用于確定頂事件發生概率和基礎事件的重要度。
通常通過計算各最小割集的發生概率,并相加得到頂事件發生概率值,進而通過最小割集發生概率與頂事件概率值的比值,可確定各最小割集的重要度。其中,對頂事件發生概率貢獻最大的割集稱為主導割集(dominant cut sets)。此外,定量評估還可以確定各基礎事件的重要度。這些定量評估的主要作用是,可以根據導致頂事件的重要度排序,對措施和資源進行優化排序。
通常,有三類衡量重要度的定量評估方法:
各事件除頂事件概率;
假設防止該事件的發生,頂事件概率的減少程度;
假設該事件發生,頂事件概率的增加程度。
8. 解釋說明
對結果的解釋說明和介紹,應重點放在解釋說明而不僅僅是介紹。分析結果解讀得夠給力并給出切實的意義,尤其是可能對目標產生潛在影響的部分應重點突出。如果只是向決策者和高層展現一大堆的閾值和術語,那么這個分析就毫無影響力,并且還可能影響高層對下一個FTA的投入考慮。
版權所有© 國可工軟科技有限公司 滬ICP備2020030271號