MTBF 的陷阱：指數分配假設的限制

那個 MTBF 報告出來，我差點把咖啡噴出來

那天早上，週會上老闆臉色不太好看，他盯著投影幕上的 MTBF 報告，眉頭鎖得比八卦山還緊。「這顆新產品的 MTBF 怎麼才 5 萬小時？我們目標是 10 萬啊！研發部搞什麼？」他轉頭看向研發經理，語氣裡滿滿的不悅。研發經理一臉尷尬，支支吾吾地解釋：「報告是這樣沒錯，但我們測試的樣本數很少，而且沒有壞半顆啊！理論上應該是無限大才對。」我坐在旁邊，差點把剛喝進去的咖啡噴出來。心想，又來了，又是這個「沒壞就是無限大」的謬誤。

問題出在哪？那個該死的「指數分配假設」

說穿了，很多時候我們在談 MTBF (Mean Time Between Failures) 或 MTTF (Mean Time To Failure) 的時候，腦子裡預設的就是「這個東西的壽命符合指數分配」。什麼意思？就是假設這個產品的失效機率，在任何時間點都是一樣的，跟它已經用了多久沒關係。就像你玩俄羅斯輪盤，每一發子彈擊發的機率都一樣，不會因為你前面沒中，下一發就機率比較高。

所以重點是，當你產品符合指數分配時，MTBF 確實就是 1/失效率。而且，如果你測試了 100 顆，壞了 5 顆，那 MTBF 很好算。但問題是，如果你的產品很可靠，測試了 100 顆，一顆都沒壞呢？難道 MTBF 就是無限大？顯然不是嘛！我們都知道，任何東西都有壽命，不可能真的無限大。

實際上，我們怎麼判斷？

坦白講，要判斷產品壽命是不是符合指數分配，最常見的就是看「浴缸曲線 (Bathtub Curve)」。

初期失效 (Early Life Failure)：這階段失效率很高，通常是製造或設計缺陷造成的。這時候絕對不是指數分配。
偶發失效 (Random Failure)：這階段失效率比較穩定，比較接近指數分配。這也是我們最常拿來估算 MTBF 的區間。
耗損失效 (Wear-out Failure)：產品開始老化，失效率又會飆高。這時候也不是指數分配。

所以，當你看到一份 MTBF 報告，首先要問的不是數字多少，而是「這個產品目前處於浴缸曲線的哪個階段？」如果還在初期失效，或是已經進入耗損，那直接套用指數分配去算 MTBF，就是自己在騙自己。

舉個例子，如果你的產品剛量產，DPMO 還在 6210 的水準（Cpk 1.08），代表有很多初期缺陷，這時候的 MTBF 絕對不能直接拿來預測它在穩定生產後的表現。你必須先改善製程，把 DPMO 降下來。

最常見的坑：樣本數太少，又沒壞半顆

我遇過最扯的，就是研發部在產品驗證階段，只測了 50 顆樣品，跑了 1000 小時，結果一顆都沒壞。然後他們就很高興地宣布：「這產品 MTBF 大於 50,000 小時！」還煞有其事地寫在報告上。

說穿了就是，他們假設了指數分配，然後用統計軟體跑出來一個最低的 MTBF 估計值（通常是下限值）。但這個值，只是「在 90% 信賴水準下，MTBF 不會低於這個數字」而已。它從來沒有告訴你真實的 MTBF 是多少。甚至，如果你的產品壓根就不符合指數分配，那這個數字根本沒有參考價值。

那老闆聽了當然高興，反正數字好看嘛！結果產品上市沒多久，客訴一堆，初期失效的問題層出不窮，整個產線人仰馬翻。這就是沒搞清楚 MTBF 背後假設的代價。

今天能做的一件事

下次看到 MTBF 報告，第一時間先問：「這個 MTBF 是在浴缸曲線哪個階段估算的？」