DOE 樣本數計算：效應大小與統計檢定力

那天 DPMO 飆到 6210，課長臉都綠了

那天下午，產線突然報了一個緊急狀況，說一批新材料上機，產出的晶圓光學檢查 DPMO 竟然飆到 6210。課長當場臉都綠了，馬上召集大家開會，要我們限時內找出原因。我那時候剛好在做一個改善專案，想評估幾種新製程參數對良率的影響。結果我設計的實驗跑完，數據出來，統計分析卻說「沒顯著差異」。我心裡想，怎麼可能？肉眼看明明有差啊！當時心裡就嘀咕，是不是樣本數太少，把真正的差異給蓋掉了？

說穿了，就是你的數據夠不夠力

你是不是也遇過這種狀況？明明覺得有效果，但統計報告卻說不顯著。說實話，這很可能是你的實驗設計「沒抓到重點」，最常見的就是樣本數不夠。我們做 DOE（實驗設計）的目的，就是用最少的實驗，找出影響產品品質的關鍵因子。但如果你樣本數太少，數據量不夠大，就算真的有效果，你的統計檢定也可能因為「力氣不夠」而抓不到，這就是所謂的「統計檢定力」不足。

換句話說，樣本數計算，就是要確保你的實驗數據，有足夠的「說服力」去證明你的假設。不然你花了一堆時間、資源做實驗，結果卻是白忙一場，誰受得了？

實際上，你要這樣判斷

那到底要多少樣本才夠？這就牽扯到幾個關鍵：

你想要的「效應大小」：你希望偵測到多大的差異？例如，你希望新製程能把良率從 99.5% 提升到 99.8%。這個 0.3% 的差異，就是你的「效應大小」。效應大小越小，你需要的樣本數就越多。
你的風險承擔程度（Alpha 和 Beta）：

* 顯著水準 (Alpha, α)：通常我們會設 0.05 (5%)，代表你願意承擔 5% 的機會，錯誤地拒絕一個實際上為真的假設（把沒效的說成有效）。

* 統計檢定力 (Power, 1-β)：通常會設 0.8 或 0.9 (80% 或 90%)，代表你希望有 80% 或 90% 的機會，當真的有效果時，你的實驗能成功偵測到它。換句話說，你只有 10% 或 20% 的機會，會錯過一個真實的效果。這個 Beta (β) 就是犯下第二型錯誤的機率，也就是「把有效的說成沒效」。

坦白講，這些參數的設定，都直接影響到你的樣本數。如果你想偵測很小的差異，又要很高的檢定力，那樣本數一定會爆多。我的經驗是，如果製程波動大，或是想抓到很小的改善，通常檢定力會拉到 0.9。

最常見的坑：為省錢瞎搞

我遇過最常見的坑，就是為了省錢或趕時程，硬是把樣本數砍半。結果跑出來的數據，Cpk 1.08 跟 1.12，數值上是有差，但統計上卻說沒顯著差異，老闆看了當然不買單。這時候就得回去補做實驗，白白浪費了時間跟材料。

還有另一種，就是完全不計算，憑感覺去抓樣本數。通常都是照著前輩的「慣例」走，但每個實驗的目標和變異性都不同，照搬很容易出錯。例如，你之前做一個參數對線寬影響的實驗，樣本數可能只需要 30 片。但現在你要評估一個新材料對晶圓翹曲的影響，變異性可能大很多，如果還用 30 片，很可能就抓不到差異了。

今天能做的一件事

下次做 DOE 前，先花 10 分鐘，用軟體跑一下樣本數計算。