那天測試機又掛了,老闆臉都綠了,我才發現可靠度沒那麼簡單
記得是好幾年前的事了。那天產線又報一台測試機掛點,而且還是那台剛大修過的機台。老闆聽到臉都綠了,因為這已經是這個月第三次了。他直接走到我們辦公室,就問了一句:「你們到底怎麼設計這些系統的?怎麼老是出包?」我心裡嘀咕,這哪是設計問題,根本是維修品質爛到爆。但老闆一句話點醒了我:「你們有沒有真的去算過,到底哪邊最容易壞?系統的瓶頸在哪?」說實話,那時我還真沒概念。
問題出在哪?別再用感覺做事了!
很多時候我們面對系統出包,最常做的就是「哪裡壞修哪裡」,或是「把最容易壞的零件換成貴一點的」。但這樣真的有效嗎?老闆問我的其實就是「可靠度區塊圖(Reliability Block Diagram, RBD)」的核心概念。說穿了,RBD 就是把你整個系統的構成,畫成一張圖,然後用串聯、並聯、或 k-out-of-n 的方式去計算這個系統的整體可靠度。這樣你才能知道,當其中一個零件掛掉,你的系統會不會跟著掛掉,或是還有沒有備援。
換句話說,RBD 讓你把複雜的系統拆解成簡單的元件,然後用數學方法去評估每個元件的失效率,最後加總起來算出整個系統的失效率。這樣你才能找出真正的「阿基里斯腱」。
實際上怎麼做?
1. 串聯系統(Series System)
想像一下,你的手機從主機板、螢幕、電池、到充電孔,只要任何一個壞掉,手機就不能用了。這就是典型的串聯系統。它的特色就是「一榮俱榮,一損俱損」。
- 舉個例: 假設你的機台有三個關鍵模組 A、B、C。模組 A 的可靠度是 0.99,B 是 0.98,C 是 0.97。如果這三個模組是串聯關係,整個機台的可靠度就是 0.99 \* 0.98 \* 0.97 = 0.941。也就是說,有將近 6% 的機率會掛掉!
所以重點是: 串聯系統的可靠度,永遠會比裡面最不可靠的那個元件還要低。你把所有零件的可靠度相乘就對了。
2. 並聯系統(Parallel System)
並聯系統就是「備援」的概念。最常見的就是 RAID 磁碟陣列,或是雙電源供應器。只要還有一個能動,整個系統就能繼續運作。
- 舉個例: 我們工廠的冷卻水泵就有兩顆,一顆壞了,另一顆會馬上接手。假設單顆水泵的可靠度是 0.9。那兩顆並聯的系統可靠度就是 1 - (1 - 0.9) \* (1 - 0.9) = 1 - 0.01 = 0.99。你看,可靠度直接從 0.9 提升到 0.99!
換句話說: 並聯系統的可靠度,是用「失敗機率」去算的。每個元件失敗的機率相乘,然後用 1 去減。
3. k-out-of-n 系統
這個比較特別。它介於串聯和並聯之間,意思是「n 個元件中,只要有 k 個能正常運作,系統就能動」。
- 舉個例: 我們有三台無塵室專用的空調,但只要兩台正常運作,就能維持溫濕度。這就是 2-out-of-3 系統。
所以重點是: k-out-of-n 系統通常用在需要一定程度冗餘,但又不需要全部元件都開機的場景。計算起來會比較複雜一點,需要用到組合數學。
最常見的坑
我跟你說,最常踩的坑就是「畫錯圖」!你以為是串聯,結果裡面有個備援機制你沒發現;你以為是並聯,但其實有個單點故障(Single Point of Failure, SPOF)你沒考慮到。
有一次我們設計一套新的自動化傳輸系統,想說都用雙備援了,可靠度應該爆表。結果一上線,還是三不五時卡住。後來才發現,負責調度所有機械手臂的「中央控制器」只有一顆!它一掛,所有備援的機械手臂都動不了。這就是典型的「假並聯、真串聯」!把所有元件都可靠度算得很高,結果漏掉那個最關鍵的單點,功虧一簣。
今天能做的一件事
把你手邊最常出問題的系統,畫出它的 RBD 草圖!