統計檢定力（Power）：如何確保結論有意義

那天老闆問：「你確定這樣有差？」我瞬間語塞

那天下午，產線突然噴了一批晶圓，某個關鍵製程參數飄到天邊去。我們緊急追查，發現是某台機台的氣體流量有異常。好不容易調整完，趕緊做了幾片實驗，想證明調整後真的有改善。數據出來了，CPK 從原本的 1.08 提升到 1.25。我興高采烈地跑去跟老闆報告：「老闆，你看！CPK 上去了，證明我們調整有效！」老闆瞇著眼看了看報表，淡淡地問了一句：「你確定這樣有差？會不會只是剛好？」我瞬間語塞，心裡OS：「啊不然是怎樣？數據就擺在這啊！」

問題出在哪？不是數據有差就好

說穿了，老闆問的其實就是「你的結論夠不夠力？」我們工程師常常看到數據有點差異，就急著下結論。但你有沒有想過，這個差異會不會只是實驗中的隨機波動？或者說，你的實驗樣本數根本不夠，所以就算看到差異，這個結論也不夠「穩」？這時候，統計檢定力（Power）就派上用場了。它白話來講，就是你「成功偵測到真實差異」的能力。

換句話說，如果製程真的有改善，你的實驗有沒有辦法正確地告訴你「有改善」？如果你的檢定力太低，就像你在霧霾裡開車，明明前面有紅綠燈，你卻可能因為看不清楚而錯過。在工廠裡，如果檢定力太低，你可能花了一堆時間金錢做了改善，結果卻因為實驗設計不良，無法證明真的有效，白忙一場。

實際上怎麼做？用數字說話

坦白講，檢定力這東西，你不可能在實驗做完才去算，那都太慢了。它應該是你在「設計實驗」階段就該考慮進去的。最常見的應用，就是用來決定你的「樣本數」要多少。

例如，你現在想比較兩種新的鍍膜配方，目標是讓晶圓的薄膜厚度變異更小。你預期配方 B 會比配方 A 的標準差減少 10%。這時候，你就要先設定好：

顯著水準 (Alpha)：通常我們設 0.05，代表你願意承擔 5% 的風險，錯誤地判斷有差異（其實沒差異）。
期望的檢定力 (Power)：通常設 0.8 或 0.9。這代表你希望有 80% 或 90% 的機率，能正確偵測到這 10% 的差異。
預期的差異量：前面說的，配方 B 比配方 A 標準差減少 10%。

有了這三個數值，你就可以利用統計軟體（JMP、Minitab 都有這個功能）去計算，你需要多少片晶圓來做實驗，才能達到你期望的檢定力。例如，算出需要 30 片，你就老老實實跑 30 片。如果只跑 5 片，那就算你看到一點點差異，老闆問你「你確定這樣有差？」，你真的會心虛。

最常見的坑：省錢省出問題來

我以前就踩過這種坑。有一次要驗證一個新材料，理論上可以讓 DPMO 從 6210 降到 5000。但那材料很貴，實驗成本很高，老闆說：「先做個 10 片看看，有趨勢就好。」結果 10 片做完，DPMO 確實有降一點，但統計上不顯著。老闆看了搖頭，覺得新材料沒用，就打回票了。

後來我重新用檢定力去算，發現當時若要偵測到 DPMO 從 6210 降到 5000 這種差異，在 80% 的檢定力下，至少要跑 50 片！我們只跑 10 片，根本就是拿著手電筒在黑洞裡找針，當然找不到。說實話，當時不是新材料沒用，而是我們的實驗設計「沒力」，白白浪費了驗證新材料的機會。這個教訓告訴我，實驗設計階段多花點時間思考，絕對比後面做白工好。

今天能做的一件事

下次實驗前，先想想你要多「篤定」才能下結論。