那天 CPK 報告出來,全場沉默了三秒,你知道為什麼嗎?
還記得好幾年前,我們機台換了一批新耗材,廠長興高采烈地說:「這次應該能把 Cpk 衝上 1.33 吧!」結果兩週後,良率報告出來,Cpk 竟然只有 1.08。會議室裡鴉雀無聲,只聽到廠長深深嘆了一口氣。大家面面相覷,有人說:「是不是新耗材跟機台參數不搭啊?」也有人猜:「會不會是不同批次的晶圓,對耗材反應不一樣?」那時候,我心裡想,如果能有個方法,幫我們判斷這些「猜測」是不是真的有關係,該有多好?
問題出在哪?別只會看圖說故事
說穿了,很多時候我們遇到問題,直覺會去連想「A是不是造成B的原因?」例如,你換了供應商的原料(A),結果良率(B)掉下來了。你可能就會直接下結論說:「這個新供應商的原料有問題!」但這樣判斷,其實是靠經驗,不是靠數據。
我們在工廠最常遇到的,就是想知道「兩個變數之間到底有沒有關聯性?」新耗材跟機台參數有沒有關係?不同批次的晶圓跟良率有沒有關係?這種「有沒有關係」的問題,就是卡方檢定(Chi-square test)最擅長處理的。它能幫你判斷,兩個類別型的變數是不是「獨立」的。如果結果是「不獨立」,那恭喜你,表示它們真的有關係,你可以進一步去追原因。
所以重點是,卡方檢定就是幫你判斷「兩個變數是不是真的有關係」,避免你只憑感覺做判斷。
實際上怎麼做?用數據說話
卡方檢定通常有兩種用法,我們在工廠最常用到的是:
- 獨立性檢定 (Test of Independence): 這是最常見的,就是我上面講的,判斷「兩個類別變數」之間有沒有關聯。
* 怎麼做:
- 收集數據,把不同供應商的晶圓,分別統計良率等級。
- 建立一個交叉表(Contingency Table),例如:
| :----- | :----- | :----- | :--- |
| A | 950 | 50 | 1000 |
| B | 900 | 100 | 1000 |
| C | 930 | 70 | 1000 |
- 丟進 Excel 或統計軟體(Minitab、R、Python 都行),跑卡方檢定。
- 看 P 值: 如果 P 值 < 0.05 (業界常用標準),那表示「供應商」跟「良率等級」不獨立,也就是說,他們之間有顯著關聯。這時你就可以合理懷疑,供應商的確影響了良率。如果 P 值 > 0.05,那表示兩者獨立,現在的數據無法證明它們有關係。
- 適合度檢定 (Goodness-of-Fit Test): 這個主要是用來判斷「你的觀測數據分佈」,是不是符合「你預期的分佈」。
* 怎麼做:
- 建立你的預期分佈(例如:早班停機 30 次,中班 30 次,晚班 30 次)。
- 收集實際的觀測數據(例如:早班 45 次,中班 25 次,晚班 20 次)。
- 一樣丟進軟體跑卡方適合度檢定。
- 看 P 值: 如果 P 值 < 0.05,表示「實際分佈」跟「預期分佈」有顯著差異。這時你就要去查,為什麼早班停機這麼多?是不是人力配置或機台保養出了問題。
所以換句話說,卡方檢定幫你從一堆數字裡,挖出潛在的關聯性或差異,讓你不再瞎猜。
最常見的坑:數據分組太粗糙,結果就跟廢紙一樣
我見過最常犯的錯,就是數據分組太隨便。例如,把不同製程階段的機台都混在一起做分析,或者把連續型的數據(比如溫度、壓力)硬是分成「高溫/低溫」兩組,但這個「高/低」的臨界點又沒有科學依據。
有一次,產線工程師想分析「操作員經驗」跟「產品缺陷率」有沒有關聯。他把操作員簡單分成「資深」跟「菜鳥」兩組。結果卡方檢定出來 P 值 0.8,說沒關係。但他明明覺得有關係!後來才發現,他把工作一年到五年都歸類成「資深」,把六個月到一年的歸類為「菜鳥」。說實話,工作一年跟五年經驗差很多好嗎?後來我們重新分組,把操作員分得更細(<半年、半年-1年、1-3年、>3年),結果 P 值就掉到 0.01,證明真的有關係。
所以重點是,數據分組要合理、要有意義,不然統計結果再漂亮也沒用。垃圾進垃圾出,你懂的。
今天能做的一件事
打開你手邊的良率報告,試著用卡方檢定跑跑看「機台」跟「缺陷類型」有沒有關聯。