事後比較（Post-hoc Test）：Tukey vs Bonferroni 的選擇

那天 CPK 報告出來，全場沉默了三秒，然後老闆問：「所以是哪台機台出包？」

那天下午，產線的 CPK 報告出來，全場都靜了三秒。報告顯示，我們某個關鍵製程的 CPK 值是 1.08，剛好壓線，但跟目標 1.33 差了一大截。老闆臉色一沉，直接問：「所以是哪台機台出包？是 A 機台、B 機台、還是 C 機台？」這時候，如果你只知道 ANOVA 的 P 值小於 0.05，然後就說「有差」，那根本是白搭。你得告訴老闆，到底哪兩台機台之間有顯著差異，才能讓產線去追問題。這時候，事後比較（Post-hoc Test）就派上用場了。

問題出在哪？不是有差就好，要抓出「是誰」有差

說穿了，ANOVA 只能告訴你「這些組別裡面，至少有一組跟其他組不同」。但它不會告訴你「是哪一組」或「哪幾組」不同。就像我們家裡有一堆小孩，你只知道其中一個考試不及格，但不知道是小明、小華還是小胖。事後比較，就是要把這些組別兩兩拿出來比對，找出真正有差異的組合。

所以重點是，你不能因為 ANOVA 跑出來 P 值小於 0.05，就直接去說 A 機台跟 B 機台有差，B 機台跟 C 機台有差。這樣做犯了「重複檢定」的問題。每次檢定都有型一錯誤（Alpha Error）的風險。你比的次數越多，這個犯錯的累積機率就越高，很容易把沒差異的說成有差異。

實際上怎麼做？Tukey 跟 Bonferroni 怎麼選

最常見的兩種事後比較方法，就是 Tukey 和 Bonferroni。

Tukey (Tukey's HSD)：

* 適用情境：當你的組別數目相等，而且你只想比較「所有可能組合」的時候。

* 優點：它會一次性調整所有比較組合的 P 值，控制整體型一錯誤的機率。它在檢定力（Power）上表現不錯，比較不容易漏掉真實的差異。

* 舉例：如果你的 A、B、C 三台機台，每台都跑了 300 片晶圓的數據。而且你關心的是 A vs B, A vs C, B vs C 這所有三種組合。這時候 Tukey 就是首選。

Bonferroni：

* 適用情境：當你「只」想比較特定的幾個組合，而不是所有組合的時候。或是你的組別數目不相等時。

* 優點：它非常保守，會把你的 Alpha 值（通常是 0.05）直接除以你比較的次數。這樣做能非常嚴格地控制型一錯誤。

* 舉例：承接上面的例子，假設你知道歷史數據顯示 C 機台的表現一直都最好，你只想比較 A vs C 和 B vs C 這兩組，看 A、B 是否能追上 C。這時候 Bonferroni 就能派上用場。如果你有 3 組，想比 2 次，那你的 P 值就必須小於 0.05 / 2 = 0.025 才算顯著。

換句話說，Tukey 像是一個「全面普查」的工具，而 Bonferroni 則是一個「精準打擊」的工具。

最常見的坑：看到 P 值就亂喊有差

坦白講，我剛進來那幾年也踩過這個坑。那時候有個新製程，DPMO 數據出來是 6210，比舊製程的 5800 差了一截。我們跑了 ANOVA，P 值是 0.038，小於 0.05。我興奮地跟老闆說：「新製程跟舊製程有顯著差異！」結果老闆問：「所以是哪個參數設定造成差異？」我當場傻眼，因為 ANOVA 根本沒說。

後來才知道，我應該要用事後比較。而且當時只關心新舊製程的差異，用 Bonferroni 就夠了。如果當時只比一次，P 值就要小於 0.05 才算有差。但是，如果我同時還想比較新製程不同 Batch 的差異，那我就會比不只一次，P 值判斷標準就得更嚴格。

今天能做的一件事

下次跑完 ANOVA，別急著下結論，多跑一步事後比較，找出誰才是真正的問題根源。