常態分配假設的檢定：Shapiro-Wilk vs Anderson-Darling

那天 CPK 報告出來，全場沉默了三秒

還記得好幾年前，我們廠裡有一批新製程，大家信心滿滿地說良率會衝上天。結果第一份 CPK 報告出來，數據顯示 1.08，DPMO 6210。會議室裡安靜了三秒，空氣瞬間凝結。老闆臉都綠了，因為照理說，這樣的 CPK 根本不可能有這麼爛的 DPMO。大家面面相覷，不知道問題出在哪。我心想，該不會又是「那個」搞的鬼吧？

問題出在哪？你的資料是「常態」的嗎？

說穿了，CPK 和 DPMO 這些統計指標，其實都有一個大前提：你的資料必須是「常態分配」。什麼意思？就是說，你的製程數據，如果畫成直方圖，要長得像個鐘形曲線，中間高兩邊低。很多統計工具都預設你的資料是常態的，如果不是，那些算出來的數字可能就完全不準，就像我們那天遇到的狀況。

所以重點是，在開始分析之前，你得先檢定一下你的資料是不是真的符合常態分配。這時候，Shapiro-Wilk 檢定和 Anderson-Darling 檢定就派上用場了。坦白講，這兩個都是在幫你判斷「你的數據是不是長得像個鐘形」。

實際上怎麼做？看 P 值就對了！

你在 Minitab 或 JMP 裡面跑常態性檢定時，會看到一個 P 值。這個 P 值就是判斷的關鍵。

Shapiro-Wilk 檢定：

* 這是最常用的一個，特別適合小樣本（通常小於 50 筆資料）。

* 如果 P 值 > 0.05（或你設定的顯著水準 alpha），那我們就「不能拒絕」你的資料是常態分配的假設。換句話說，你可以安心地假設它是常態。

* 如果 P 值 <= 0.05，那就表示你的資料很有可能不是常態分配。這時候你就要小心了！

Anderson-Darling 檢定：

* 這個檢定對於分佈的尾部（也就是極端值）更敏感。

* 一樣是看 P 值：P 值 > 0.05，表示資料可能為常態；P 值 <= 0.05，則表示可能不是。

* 它的統計檢定力（Power）通常比 Shapiro-Wilk 稍微高一些，尤其是在處理大樣本時，會更容易抓到非常態的狀況。

所以重點是，當你看到 P 值小於 0.05 的時候，就表示你的數據很可能不是常態。這時候你用 CPK 那些公式去算，結果就會失真。那天的 CPK 1.08，DPMO 6210 就是因為數據根本不是常態分配，導致計算出來的 CPK 值被「膨脹」了。

最常見的坑：P 值沒看就硬上 CPK

我踩過最大的坑，就是剛進廠時，學長教我跑 CPK，但沒特別強調要先做常態性檢定。那時候我拿到數據，直接丟進軟體算，看到 CPK 數字還不錯就交報告。結果老闆看了 DPMO 數字不對勁，才把我叫去問。後來才發現，我的數據根本是雙峰分佈，根本就不是常態！那時候真的被罵到臭頭，才知道這個前置步驟有多重要。很多時候，我們看到一個 CPK 報告，如果 DPMO 跟 CPK 的邏輯對不起來，八成就是常態性檢定沒過。

今天能做的一件事

下次跑統計分析前，先在你的 Minitab 或 JMP 裡，幫數據跑個 Shapiro-Wilk 或 Anderson-Darling 檢定，看看 P 值！