InsightFab
知識庫/Kruskal-Wallis 與 Friedman 檢定:非參數 ANOVA
統計分析6 分鐘閱讀

Kruskal-Wallis 與 Friedman 檢定:非參數 ANOVA

朋友啊,最近看到一篇超實用的文章,完全是工程師的救星!它在講,當你拿到一堆良率、DPMO 這種半導體製程數據,卻發現它們根本不是「常態分佈」時,要怎麼比較不同設備或製程的表現?別傻傻地直接用 ANOVA 啦!文章解釋了為什麼 ANOVA 不適用,還介紹了「非參數檢定」這個超級工具。讀完你會知道,遇到這種「歪七扭八」的數據時,該怎麼選對方法、做出正確判斷,讓你不再被數據給騙了!快去看看吧!

那天 CPK 報告出來,全場沉默了三秒,然後就有人在問「這能比嗎?」

還記得兩年前,有個新製程要導入,我們想比較三家設備商的良率表現。那時剛好是 Q3 衝刺,大家壓力都大到爆。我們把三台機台分別跑了三批貨,結果出來,A 廠良率 99.85%,B 廠 99.82%,C 廠 99.83%。數據看起來很接近,但製程整合的阿德直接皺眉說:「這能比嗎?這些良率數據根本不是常態分佈啊,用 ANOVA 準嗎?」會議室頓時安靜下來,我知道他指的就是「非參數檢定」這回事。

問題出在哪?為什麼不能直接用 ANOVA?

說穿了就是,我們常用的 ANOVA (變異數分析) 其實有個很重要的前提:你的資料必須是「常態分佈」而且「變異數相等」。但半導體製程裡面,很多時候你的數據根本不符合這些條件。例如良率、DPMO (每百萬缺陷數) 這種,常常是偏態分佈。或是你只有「排序」的數據,像是品質評分 (1-5 級),這種就更不能直接套 ANOVA 了。如果你硬要用,結果可能就跟亂猜沒兩樣,報告寫得再漂亮也只是自欺欺人。

所以重點是,當你的數據不符合常態分佈或變異數不相等時,我們就得找「非參數」的替代方案。今天要聊的 Kruskal-Wallis 檢定和 Friedman 檢定,就是針對這種情境的非參數版 ANOVA。Kruskal-Wallis 用來比較三組或更多組獨立樣本的中位數差異;Friedman 則是比較三組或更多組配對樣本 (或重複測量) 的中位數差異。

實際上怎麼做?

我們就拿前面設備廠的例子來說。假設你現在有三家設備商 A、B、C,每家設備都跑了五批貨,得到的 DPMO 數據分別是:

  • A 廠: 6210, 6350, 6180, 6290, 6320
  • B 廠: 6400, 6520, 6380, 6450, 6500
  • C 廠: 6300, 6280, 6330, 6250, 6270

你先用 Minitab 跑一下常態性檢定,發現這些 DPMO 數據根本不是常態分佈。這時候,你就不能用 One-way ANOVA 了,要改用 Kruskal-Wallis 檢定

  1. 資料準備: 把所有 DPMO 數據集中成一欄,另一欄標註是哪個設備廠 (A, B, C)。
  2. 執行檢定: 在 Minitab 裡面,你會找到 `統計(Stat)` -> `無母數(Nonparametrics)` -> `Kruskal-Wallis`。
  3. 解讀 P 值: 如果 P 值小於你的顯著水準 (通常是 0.05),就表示至少有一組設備商的 DPMO 中位數與其他組有顯著差異。如果 P 值大於 0.05,就表示各組之間沒有顯著差異。

換句話說,Kruskal-Wallis 檢定會把所有數據混在一起排序,然後根據排序結果來判斷各組之間是否有差異。它比的不是平均值,而是中位數。

那 Friedman 呢?想像一下,你現在不是比較不同設備廠,而是想看「同一批貨」經過三種不同的清洗模式 (A, B, C) 後,潔淨度分數 (1-10分,分數越高越好) 有沒有差異。因為是同一批貨,所以這是「配對樣本」,這時候就要用 Friedman 檢定了。

  1. 資料準備: 三種清洗模式的潔淨度分數分三欄,每一列代表一批貨。
  2. 執行檢定: 在 Minitab 裡面,你會找到 `統計(Stat)` -> `無母數(Nonparametrics)` -> `Friedman`。
  3. 解讀 P 值: 一樣看 P 值,小於 0.05 就表示三種清洗模式的潔淨度中位數有顯著差異。

最常見的坑

說實話,我剛開始學的時候也踩過坑。最常犯的就是「看到多組比較就反射性地跑 ANOVA」。有一次,我們評估不同供應商的材料,想看材料的表面粗糙度有沒有差異。數據量不大,但因為是人工目視評分,根本不可能常態分佈。結果我直接跑 ANOVA,P 值還很小,報告寫得自信滿滿。後來被老闆問到數據分佈圖,才發現根本是偏態,整個臉都綠了。老闆只是淡淡地說:「下次先檢查一下數據的『長相』。」那次之後,我學乖了,任何統計分析前,第一步永遠是看數據分佈圖,判斷是否常態。

另一個坑是,雖然非參數檢定很好用,但它的「統計檢定力」通常會比參數檢定 (如 ANOVA) 略低。意思是,當真的有差異存在時,非參數檢定可能比較難偵測出來。所以,如果你的數據符合參數檢定的假設,還是優先用 ANOVA 會比較好。但如果數據不符合,就別猶豫了,Kruskal-Wallis 或 Friedman 才是你的救星。

今天能做的一件事

打開你最近的 ANOVA 報告,檢查原始數據分佈圖。

想試試看?

文章裡提到的分析工具在 InsightFab 都可以直接用,上傳 CSV 即可分析。

前往工具頁面

同類別文章

常態分配假設的檢定:Shapiro-Wilk vs Anderson-Darling

欸,跟你說,最近看到一篇超實用的文章!它在講以前工廠良率很差,結果 CPK 報告出來,數據根本對不上 DPMO,全場傻眼。讀完你會知道,原來很多統計指標像 CPK 都有個大前提,就是你的數據得符合「常態分配」才準。如果數據不是常態,那些算出來的數字根本是白搭!所以啊,下次做分析前,記得先用 Shapiro-Wilk 檢定一下,才不會鬧出烏龍喔!

統計檢定力(Power):如何確保結論有意義

嘿,跟你分享一篇很有趣的文章!作者那天興高采烈拿著CPK從1.08進步到1.25的數據給老闆看,結果老闆一句「你確定這樣有差?」讓他瞬間語塞。 這篇文章超實用,它點出我們工程師常犯的錯誤——光看數據有變就急著下結論,卻沒考慮到那可能是隨機波動或樣本不足。裡面會教你怎麼用「統計檢定力」來證明你的結論夠不夠穩,讓你下次報告時,面對老闆的質疑也能自信滿滿!讀完你會知道怎麼讓你的數據說服力更強喔!

信賴區間的正確解讀:95% CI 不是你想的那樣

嘿,最近看到一篇超實用的文章!它從一個大家在開會時都可能遇過的尷尬情境說起:CPK 報告出來,PM 盯著 1.08 的數據和旁邊的「95% CI: 0.95-1.21」,問這到底是好是壞?然後大家就靜默了。讀完你會知道,我們平常對信賴區間的理解,尤其那個「95% 的機率落在這個區間」根本是錯的!這篇文會教你信賴區間的正確解讀方式,讓你以後看報表不再一頭霧水,超推!