InsightFab
知識庫/DOE 樣本數計算:效應大小與統計檢定力
DOE6 分鐘閱讀

DOE 樣本數計算:效應大小與統計檢定力

嘿,跟你分享一篇很有趣的文章!它在講工作中常見的「明明覺得有差,但統計數據卻說沒顯著差異」這種狀況。作者用一個 DPMO 飆高、課長臉都綠的真實案例開頭,超級生動!讀完你會知道,很多時候不是沒效果,而是你的實驗設計「沒抓到重點」,尤其是樣本數不夠,讓統計分析沒力氣抓出真正的差異。這篇會讓你對實驗設計和統計檢定有更深的理解,以後遇到類似問題就知道怎麼辦啦!

那天 DPMO 飆到 6210,課長臉都綠了

那天下午,產線突然報了一個緊急狀況,說一批新材料上機,產出的晶圓光學檢查 DPMO 竟然飆到 6210。課長當場臉都綠了,馬上召集大家開會,要我們限時內找出原因。我那時候剛好在做一個改善專案,想評估幾種新製程參數對良率的影響。結果我設計的實驗跑完,數據出來,統計分析卻說「沒顯著差異」。我心裡想,怎麼可能?肉眼看明明有差啊!當時心裡就嘀咕,是不是樣本數太少,把真正的差異給蓋掉了?

說穿了,就是你的數據夠不夠力

你是不是也遇過這種狀況?明明覺得有效果,但統計報告卻說不顯著。說實話,這很可能是你的實驗設計「沒抓到重點」,最常見的就是樣本數不夠。我們做 DOE(實驗設計)的目的,就是用最少的實驗,找出影響產品品質的關鍵因子。但如果你樣本數太少,數據量不夠大,就算真的有效果,你的統計檢定也可能因為「力氣不夠」而抓不到,這就是所謂的「統計檢定力」不足。

換句話說,樣本數計算,就是要確保你的實驗數據,有足夠的「說服力」去證明你的假設。不然你花了一堆時間、資源做實驗,結果卻是白忙一場,誰受得了?

實際上,你要這樣判斷

那到底要多少樣本才夠?這就牽扯到幾個關鍵:

  1. 你想要的「效應大小」:你希望偵測到多大的差異?例如,你希望新製程能把良率從 99.5% 提升到 99.8%。這個 0.3% 的差異,就是你的「效應大小」。效應大小越小,你需要的樣本數就越多。
  2. 你的風險承擔程度(Alpha 和 Beta)
* 顯著水準 (Alpha, α):通常我們會設 0.05 (5%),代表你願意承擔 5% 的機會,錯誤地拒絕一個實際上為真的假設(把沒效的說成有效)。

* 統計檢定力 (Power, 1-β):通常會設 0.8 或 0.9 (80% 或 90%),代表你希望有 80% 或 90% 的機會,當真的有效果時,你的實驗能成功偵測到它。換句話說,你只有 10% 或 20% 的機會,會錯過一個真實的效果。這個 Beta (β) 就是犯下第二型錯誤的機率,也就是「把有效的說成沒效」。

坦白講,這些參數的設定,都直接影響到你的樣本數。如果你想偵測很小的差異,又要很高的檢定力,那樣本數一定會爆多。我的經驗是,如果製程波動大,或是想抓到很小的改善,通常檢定力會拉到 0.9。

最常見的坑:為省錢瞎搞

我遇過最常見的坑,就是為了省錢或趕時程,硬是把樣本數砍半。結果跑出來的數據,Cpk 1.08 跟 1.12,數值上是有差,但統計上卻說沒顯著差異,老闆看了當然不買單。這時候就得回去補做實驗,白白浪費了時間跟材料。

還有另一種,就是完全不計算,憑感覺去抓樣本數。通常都是照著前輩的「慣例」走,但每個實驗的目標和變異性都不同,照搬很容易出錯。例如,你之前做一個參數對線寬影響的實驗,樣本數可能只需要 30 片。但現在你要評估一個新材料對晶圓翹曲的影響,變異性可能大很多,如果還用 30 片,很可能就抓不到差異了。

今天能做的一件事

下次做 DOE 前,先花 10 分鐘,用軟體跑一下樣本數計算。

想試試看?

文章裡提到的分析工具在 InsightFab 都可以直接用,上傳 CSV 即可分析。

前往工具頁面