那天 CpK 報告出來,全場沉默了三秒
還記得上次出包嗎?就是那個,某個機台的晶圓,報廢率突然從 0.5% 飆到 2%,把大家嚇得半死。PM 一臉鐵青地跑來問我:「老張啊,上次說那個參數 A 跟良率有『高度相關』,還拍胸脯保證,結果現在良率爛成這樣,A 值明明還在 Spec 內啊,你是不是搞錯了什麼?」說實話,當下我心裡也涼了一截,明明跑了 Pearson 相關係數,高達 0.85,這麼漂亮的數字,怎麼會這樣?看著 PM 那張快要噴火的臉,我只好先打哈哈說:「嗯…這可能要再挖一下資料,看看是不是有其他隱藏的變數…」
問題出在哪?
坦白講,這個問題,大概你我也都遇過。我們在廠內做數據分析,常常習慣性地抓個 Pearson 相關係數,看到數字夠高,就覺得找到了聖杯。但說穿了,Pearson 相關係數它只看「線性關係」。什麼意思?就是當一個變數增加,另一個變數也跟著「等比例」增加或減少。想像一下,如果你每天多跑一公里,體重就等比例地減輕一點,這就是線性關係。
但現實世界哪有那麼美好?更多時候,我們的數據關係是「單調」但「非線性」的。什麼叫單調?就是當一個變數增加,另一個變數也跟著增加(或減少),但增加或減少的幅度不一定一樣。比如,你每天多睡一小時,剛開始可能精神會好很多,但睡到某個程度,再多睡一小時,精神提升的幅度就沒那麼大了。這就是單調關係,但它不是線性的。所以重點是,當你的數據關係不是一條直線時,Pearson 相關係數就會給你一個「假象」,讓你以為不相關,或相關性很弱。
實際上怎麼做?
這時候,我們就需要請出另一位老朋友,叫做 Spearman 相關係數。它專門處理這種「單調關係」。怎麼做呢?說穿了很簡單,它不看原始數值,而是把你的數據轉換成「排名」之後,再去計算相關性。
舉個實際的例子:
- 假設你今天有 5 片晶圓,它們的「曝光時間」分別是 100、105、110、120、130 秒。
- 而對應的「Cpk」分別是 1.08、1.25、1.30、1.31、1.15。
如果你用 Pearson 算,可能發現 Cpk 在曝光時間拉到 130 秒時反而下降,導致相關性不如預期。但如果用 Spearman:
- 我們把曝光時間排名:100 (1st)、105 (2nd)、110 (3rd)、120 (4th)、130 (5th)。
- 再把 Cpk 排名:1.08 (1st)、1.15 (2nd)、1.25 (3rd)、1.30 (4th)、1.31 (5th)。
然後再針對這些排名去計算相關係數。你會發現,即使原始數值沒有嚴格的線性關係,只要趨勢是往同一個方向走的,Spearman 就能抓出來。所以,下次你在看數據的時候,如果懷疑是不是非線性關係,就兩種都跑跑看!
最常見的坑
我踩過最大的坑,就是把 Pearson 相關係數當成唯一的判斷標準。那次為了追一個 DPMO 從 6210 飆到 8500 的問題,花了三天三夜,結果發現某個蝕刻時間參數跟 DPMO 關係不明顯,Pearson 只有 0.2。我還跟老闆報告說:「這個參數不是主因。」結果老闆不信邪,叫我畫散佈圖。一畫才發現,蝕刻時間在某個區間內 DPMO 很低,但超過那個區間,DPMO 就會暴增,呈現一個類似「L」型的關係。這種圖,Pearson 當然抓不到,但 Spearman 一跑,相關係數馬上跳到 0.75!當下真的只能摸摸鼻子,重新調整分析方向。所以,光看數字不畫圖,絕對會吃大虧。
今天能做的一件事
下次跑相關性,兩種係數都跑一遍,然後畫個散佈圖。