貝氏統計入門：先驗與後驗的直觀理解

那天 CPK 報告出來，全場沉默了三秒

還記得上次出貨前，新製程那批貨的 CPK 報告出來嗎？PM 看了臉都綠了，因為 CPK 只有 1.08，雖然「勉強」及格，但跟我們目標的 1.33 差了一大截。老闆當場臉就垮下來，問說：「到底是機台出問題，還是量測儀器飄了？」你知道的，這種時候大家都會先推給儀器飄移，然後才開始懷疑機台。但問題是，你怎麼知道哪個「可能性」比較大？

問題出在哪？

說白了，這種情況就是你在做判斷時，手上沒有足夠的「確切證據」。你可能心裡有個底，覺得某台機台之前就常常鬧脾氣，或是上次校驗完的儀器，感覺怪怪的。這些「感覺」或「過去經驗」，其實就是統計學裡說的「先驗機率」（Prior Probability）。它代表你在看到任何新數據之前，對於某件事發生的「信念」或「猜測」。

舉個例子，如果我們過去經驗顯示，機台出包的機率是 70%，儀器飄移的機率是 30%。這就是你的先驗。但現在，你手上有新的 CPK 數據 1.08。這個新的數據出來後，你會不會因此調整你對「機台出包」或「儀器飄移」的看法？會嘛！這調整後的看法，就是「後驗機率」（Posterior Probability）。

所以重點是，貝氏統計就是在教你，如何用「新的證據」（比如 CPK 1.08）來更新你「舊的信念」（對機台或儀器的看法），讓你做出的判斷更精準。它不是要你推翻舊的經驗，而是要你用新的資訊來修正它。

實際上怎麼做？

我們回到 CPK 1.08 的例子。假設你根據過往紀錄，有以下先驗資訊：

機台真的有問題的機率是 70%。
量測儀器飄移的機率是 30%。

再來，你還需要知道，在兩種情況下，出現「CPK 1.08」這種數據的可能性：

如果機台真的有問題，出現 CPK 1.08 的機率可能是 60%。(因為有問題通常會更慘，但有時會剛好卡在邊緣)
如果量測儀器飄移，出現 CPK 1.08 的機率可能是 80%。(儀器飄通常數據會變差，而且常飄到剛好卡邊緣)

有了這些，你就可以用貝氏定理來算「後驗機率」了。它會幫你算出：

在「看到 CPK 1.08」這個前提下，「機台真的有問題」的機率。
在「看到 CPK 1.08」這個前提下，「量測儀器飄移」的機率。

說穿了就是把「先驗機率」乘上「在各種情況下發生這個事件的機率」，然後正規化。這樣你就能得到，看到 CPK 1.08 後，哪種情況的機率變高了。你會發現，經過計算，儀器飄移的後驗機率會明顯高於機台問題的後驗機率。這表示，你應該優先去查儀器！

最常見的坑

我跟你講，最常見的坑就是「先入為主」。很多人拿到數據，腦袋裡早就想好是誰的鍋了。例如，某個班的良率突然掉了，DPMO 從 6210 變成 9800，第一時間就直覺是那個新來的 OP 搞砸了。這就是只憑「感覺」做事，沒有去評估「先驗機率」和「看到這個 DPMO 值時，各種可能性發生的機率」。

結果呢？花了一堆時間盯著新人，最後才發現是前一個班的工程師，在換料時順手調了一個製程參數，而且沒記錄下來！如果當時我們能冷靜下來，用貝氏的思維，去評估「新人犯錯」和「參數被改」這兩個事件的先驗機率，以及在 DPMO 9800 這個情況下，兩者各自發生的機率，搞不好早就查到是參數的問題了。

所以，別讓你的「直覺」完全主導你的判斷，它很重要，但也要有數據來修正。

今天能做的一件事

下次遇到問題，先想想你對原因的「第一印象」是什麼？這就是你的「先驗」。