卡方檢定在品質分析：獨立性與適合度

那天 CPK 報告出來，全場沉默了三秒，你知道為什麼嗎？

還記得好幾年前，我們機台換了一批新耗材，廠長興高采烈地說：「這次應該能把 Cpk 衝上 1.33 吧！」結果兩週後，良率報告出來，Cpk 竟然只有 1.08。會議室裡鴉雀無聲，只聽到廠長深深嘆了一口氣。大家面面相覷，有人說：「是不是新耗材跟機台參數不搭啊？」也有人猜：「會不會是不同批次的晶圓，對耗材反應不一樣？」那時候，我心裡想，如果能有個方法，幫我們判斷這些「猜測」是不是真的有關係，該有多好？

問題出在哪？別只會看圖說故事

說穿了，很多時候我們遇到問題，直覺會去連想「A是不是造成B的原因？」例如，你換了供應商的原料（A），結果良率（B）掉下來了。你可能就會直接下結論說：「這個新供應商的原料有問題！」但這樣判斷，其實是靠經驗，不是靠數據。

我們在工廠最常遇到的，就是想知道「兩個變數之間到底有沒有關聯性？」新耗材跟機台參數有沒有關係？不同批次的晶圓跟良率有沒有關係？這種「有沒有關係」的問題，就是卡方檢定（Chi-square test）最擅長處理的。它能幫你判斷，兩個類別型的變數是不是「獨立」的。如果結果是「不獨立」，那恭喜你，表示它們真的有關係，你可以進一步去追原因。

所以重點是，卡方檢定就是幫你判斷「兩個變數是不是真的有關係」，避免你只憑感覺做判斷。

實際上怎麼做？用數據說話

卡方檢定通常有兩種用法，我們在工廠最常用到的是：

獨立性檢定 (Test of Independence)： 這是最常見的，就是我上面講的，判斷「兩個類別變數」之間有沒有關聯。

* 情境： 你想知道「晶圓供應商」跟「良率等級 (良/不良)」有沒有關係。

* 怎麼做：

收集數據，把不同供應商的晶圓，分別統計良率等級。
建立一個交叉表（Contingency Table），例如：

| 供應商 | 良品數 | 不良品數 | 總計 |

| :----- | :----- | :----- | :--- |

| A | 950 | 50 | 1000 |

| B | 900 | 100 | 1000 |

| C | 930 | 70 | 1000 |

丟進 Excel 或統計軟體（Minitab、R、Python 都行），跑卡方檢定。
看 P 值： 如果 P 值 < 0.05 (業界常用標準)，那表示「供應商」跟「良率等級」不獨立，也就是說，他們之間有顯著關聯。這時你就可以合理懷疑，供應商的確影響了良率。如果 P 值 > 0.05，那表示兩者獨立，現在的數據無法證明它們有關係。

適合度檢定 (Goodness-of-Fit Test)： 這個主要是用來判斷「你的觀測數據分佈」，是不是符合「你預期的分佈」。

* 情境： 你預期機台在不同班別的停機次數應該是均勻分佈的（例如早中晚班各佔 33.3%），但實際收集到的數據卻不是這樣。你想知道實際數據跟你的預期有沒有顯著差異。

* 怎麼做：

建立你的預期分佈（例如：早班停機 30 次，中班 30 次，晚班 30 次）。
收集實際的觀測數據（例如：早班 45 次，中班 25 次，晚班 20 次）。
一樣丟進軟體跑卡方適合度檢定。
看 P 值： 如果 P 值 < 0.05，表示「實際分佈」跟「預期分佈」有顯著差異。這時你就要去查，為什麼早班停機這麼多？是不是人力配置或機台保養出了問題。

所以換句話說，卡方檢定幫你從一堆數字裡，挖出潛在的關聯性或差異，讓你不再瞎猜。

最常見的坑：數據分組太粗糙，結果就跟廢紙一樣

我見過最常犯的錯，就是數據分組太隨便。例如，把不同製程階段的機台都混在一起做分析，或者把連續型的數據（比如溫度、壓力）硬是分成「高溫/低溫」兩組，但這個「高/低」的臨界點又沒有科學依據。

有一次，產線工程師想分析「操作員經驗」跟「產品缺陷率」有沒有關聯。他把操作員簡單分成「資深」跟「菜鳥」兩組。結果卡方檢定出來 P 值 0.8，說沒關係。但他明明覺得有關係！後來才發現，他把工作一年到五年都歸類成「資深」，把六個月到一年的歸類為「菜鳥」。說實話，工作一年跟五年經驗差很多好嗎？後來我們重新分組，把操作員分得更細（<半年、半年-1年、1-3年、>3年），結果 P 值就掉到 0.01，證明真的有關係。

所以重點是，數據分組要合理、要有意義，不然統計結果再漂亮也沒用。垃圾進垃圾出，你懂的。

今天能做的一件事

打開你手邊的良率報告，試著用卡方檢定跑跑看「機台」跟「缺陷類型」有沒有關聯。