InsightFab
知識庫/統計檢定力(Power):如何確保結論有意義
統計分析6 分鐘閱讀

統計檢定力(Power):如何確保結論有意義

嘿,跟你分享一篇很有趣的文章!作者那天興高采烈拿著CPK從1.08進步到1.25的數據給老闆看,結果老闆一句「你確定這樣有差?」讓他瞬間語塞。 這篇文章超實用,它點出我們工程師常犯的錯誤——光看數據有變就急著下結論,卻沒考慮到那可能是隨機波動或樣本不足。裡面會教你怎麼用「統計檢定力」來證明你的結論夠不夠穩,讓你下次報告時,面對老闆的質疑也能自信滿滿!讀完你會知道怎麼讓你的數據說服力更強喔!

那天老闆問:「你確定這樣有差?」我瞬間語塞

那天下午,產線突然噴了一批晶圓,某個關鍵製程參數飄到天邊去。我們緊急追查,發現是某台機台的氣體流量有異常。好不容易調整完,趕緊做了幾片實驗,想證明調整後真的有改善。數據出來了,CPK 從原本的 1.08 提升到 1.25。我興高采烈地跑去跟老闆報告:「老闆,你看!CPK 上去了,證明我們調整有效!」老闆瞇著眼看了看報表,淡淡地問了一句:「你確定這樣有差?會不會只是剛好?」我瞬間語塞,心裡OS:「啊不然是怎樣?數據就擺在這啊!」

問題出在哪?不是數據有差就好

說穿了,老闆問的其實就是「你的結論夠不夠力?」我們工程師常常看到數據有點差異,就急著下結論。但你有沒有想過,這個差異會不會只是實驗中的隨機波動?或者說,你的實驗樣本數根本不夠,所以就算看到差異,這個結論也不夠「穩」?這時候,統計檢定力(Power)就派上用場了。它白話來講,就是你「成功偵測到真實差異」的能力。

換句話說,如果製程真的有改善,你的實驗有沒有辦法正確地告訴你「有改善」?如果你的檢定力太低,就像你在霧霾裡開車,明明前面有紅綠燈,你卻可能因為看不清楚而錯過。在工廠裡,如果檢定力太低,你可能花了一堆時間金錢做了改善,結果卻因為實驗設計不良,無法證明真的有效,白忙一場。

實際上怎麼做?用數字說話

坦白講,檢定力這東西,你不可能在實驗做完才去算,那都太慢了。它應該是你在「設計實驗」階段就該考慮進去的。最常見的應用,就是用來決定你的「樣本數」要多少。

例如,你現在想比較兩種新的鍍膜配方,目標是讓晶圓的薄膜厚度變異更小。你預期配方 B 會比配方 A 的標準差減少 10%。這時候,你就要先設定好:

  1. 顯著水準 (Alpha):通常我們設 0.05,代表你願意承擔 5% 的風險,錯誤地判斷有差異(其實沒差異)。
  2. 期望的檢定力 (Power):通常設 0.8 或 0.9。這代表你希望有 80% 或 90% 的機率,能正確偵測到這 10% 的差異。
  3. 預期的差異量:前面說的,配方 B 比配方 A 標準差減少 10%。

有了這三個數值,你就可以利用統計軟體(JMP、Minitab 都有這個功能)去計算,你需要多少片晶圓來做實驗,才能達到你期望的檢定力。例如,算出需要 30 片,你就老老實實跑 30 片。如果只跑 5 片,那就算你看到一點點差異,老闆問你「你確定這樣有差?」,你真的會心虛。

最常見的坑:省錢省出問題來

我以前就踩過這種坑。有一次要驗證一個新材料,理論上可以讓 DPMO 從 6210 降到 5000。但那材料很貴,實驗成本很高,老闆說:「先做個 10 片看看,有趨勢就好。」結果 10 片做完,DPMO 確實有降一點,但統計上不顯著。老闆看了搖頭,覺得新材料沒用,就打回票了。

後來我重新用檢定力去算,發現當時若要偵測到 DPMO 從 6210 降到 5000 這種差異,在 80% 的檢定力下,至少要跑 50 片!我們只跑 10 片,根本就是拿著手電筒在黑洞裡找針,當然找不到。說實話,當時不是新材料沒用,而是我們的實驗設計「沒力」,白白浪費了驗證新材料的機會。這個教訓告訴我,實驗設計階段多花點時間思考,絕對比後面做白工好。

今天能做的一件事

下次實驗前,先想想你要多「篤定」才能下結論。

想試試看?

文章裡提到的分析工具在 InsightFab 都可以直接用,上傳 CSV 即可分析。

前往工具頁面

同類別文章

常態分配假設的檢定:Shapiro-Wilk vs Anderson-Darling

欸,跟你說,最近看到一篇超實用的文章!它在講以前工廠良率很差,結果 CPK 報告出來,數據根本對不上 DPMO,全場傻眼。讀完你會知道,原來很多統計指標像 CPK 都有個大前提,就是你的數據得符合「常態分配」才準。如果數據不是常態,那些算出來的數字根本是白搭!所以啊,下次做分析前,記得先用 Shapiro-Wilk 檢定一下,才不會鬧出烏龍喔!

信賴區間的正確解讀:95% CI 不是你想的那樣

嘿,最近看到一篇超實用的文章!它從一個大家在開會時都可能遇過的尷尬情境說起:CPK 報告出來,PM 盯著 1.08 的數據和旁邊的「95% CI: 0.95-1.21」,問這到底是好是壞?然後大家就靜默了。讀完你會知道,我們平常對信賴區間的理解,尤其那個「95% 的機率落在這個區間」根本是錯的!這篇文會教你信賴區間的正確解讀方式,讓你以後看報表不再一頭霧水,超推!

事後比較(Post-hoc Test):Tukey vs Bonferroni 的選擇

嘿,哥們!最近看到一篇超實用的文章,完全是解決你在產線會遇到的那種「到底是哪台機台出問題」的窘境。它講到當 CPK 報告出來,發現目標沒達到,老闆問是哪台機台出包時,如果你只會說「有差」,那就GG了。這時候你就需要學會「事後比較」(Post-hoc Test),讓你一眼看出到底是哪兩台機台有顯著差異,幫你精準抓出問題,讓產線能立刻處理!趕快讀這篇,以後保證不再被老闆問倒!