那個 MTBF 報告出來,我差點把咖啡噴出來
那天早上,週會上老闆臉色不太好看,他盯著投影幕上的 MTBF 報告,眉頭鎖得比八卦山還緊。「這顆新產品的 MTBF 怎麼才 5 萬小時?我們目標是 10 萬啊!研發部搞什麼?」他轉頭看向研發經理,語氣裡滿滿的不悅。研發經理一臉尷尬,支支吾吾地解釋:「報告是這樣沒錯,但我們測試的樣本數很少,而且沒有壞半顆啊!理論上應該是無限大才對。」我坐在旁邊,差點把剛喝進去的咖啡噴出來。心想,又來了,又是這個「沒壞就是無限大」的謬誤。
問題出在哪?那個該死的「指數分配假設」
說穿了,很多時候我們在談 MTBF (Mean Time Between Failures) 或 MTTF (Mean Time To Failure) 的時候,腦子裡預設的就是「這個東西的壽命符合指數分配」。什麼意思?就是假設這個產品的失效機率,在任何時間點都是一樣的,跟它已經用了多久沒關係。就像你玩俄羅斯輪盤,每一發子彈擊發的機率都一樣,不會因為你前面沒中,下一發就機率比較高。
所以重點是,當你產品符合指數分配時,MTBF 確實就是 1/失效率。而且,如果你測試了 100 顆,壞了 5 顆,那 MTBF 很好算。但問題是,如果你的產品很可靠,測試了 100 顆,一顆都沒壞呢?難道 MTBF 就是無限大?顯然不是嘛!我們都知道,任何東西都有壽命,不可能真的無限大。
實際上,我們怎麼判斷?
坦白講,要判斷產品壽命是不是符合指數分配,最常見的就是看「浴缸曲線 (Bathtub Curve)」。
- 初期失效 (Early Life Failure):這階段失效率很高,通常是製造或設計缺陷造成的。這時候絕對不是指數分配。
- 偶發失效 (Random Failure):這階段失效率比較穩定,比較接近指數分配。這也是我們最常拿來估算 MTBF 的區間。
- 耗損失效 (Wear-out Failure):產品開始老化,失效率又會飆高。這時候也不是指數分配。
所以,當你看到一份 MTBF 報告,首先要問的不是數字多少,而是「這個產品目前處於浴缸曲線的哪個階段?」如果還在初期失效,或是已經進入耗損,那直接套用指數分配去算 MTBF,就是自己在騙自己。
舉個例子,如果你的產品剛量產,DPMO 還在 6210 的水準(Cpk 1.08),代表有很多初期缺陷,這時候的 MTBF 絕對不能直接拿來預測它在穩定生產後的表現。你必須先改善製程,把 DPMO 降下來。
最常見的坑:樣本數太少,又沒壞半顆
我遇過最扯的,就是研發部在產品驗證階段,只測了 50 顆樣品,跑了 1000 小時,結果一顆都沒壞。然後他們就很高興地宣布:「這產品 MTBF 大於 50,000 小時!」還煞有其事地寫在報告上。
說穿了就是,他們假設了指數分配,然後用統計軟體跑出來一個最低的 MTBF 估計值(通常是下限值)。但這個值,只是「在 90% 信賴水準下,MTBF 不會低於這個數字」而已。它從來沒有告訴你真實的 MTBF 是多少。甚至,如果你的產品壓根就不符合指數分配,那這個數字根本沒有參考價值。
那老闆聽了當然高興,反正數字好看嘛!結果產品上市沒多久,客訴一堆,初期失效的問題層出不窮,整個產線人仰馬翻。這就是沒搞清楚 MTBF 背後假設的代價。
今天能做的一件事
下次看到 MTBF 報告,第一時間先問:「這個 MTBF 是在浴缸曲線哪個階段估算的?」