相關係數 Pearson vs Spearman：線性 vs 單調關係

那天 CpK 報告出來，全場沉默了三秒

還記得上次出包嗎？就是那個，某個機台的晶圓，報廢率突然從 0.5% 飆到 2%，把大家嚇得半死。PM 一臉鐵青地跑來問我：「老張啊，上次說那個參數 A 跟良率有『高度相關』，還拍胸脯保證，結果現在良率爛成這樣，A 值明明還在 Spec 內啊，你是不是搞錯了什麼？」說實話，當下我心裡也涼了一截，明明跑了 Pearson 相關係數，高達 0.85，這麼漂亮的數字，怎麼會這樣？看著 PM 那張快要噴火的臉，我只好先打哈哈說：「嗯…這可能要再挖一下資料，看看是不是有其他隱藏的變數…」

問題出在哪？

坦白講，這個問題，大概你我也都遇過。我們在廠內做數據分析，常常習慣性地抓個 Pearson 相關係數，看到數字夠高，就覺得找到了聖杯。但說穿了，Pearson 相關係數它只看「線性關係」。什麼意思？就是當一個變數增加，另一個變數也跟著「等比例」增加或減少。想像一下，如果你每天多跑一公里，體重就等比例地減輕一點，這就是線性關係。

但現實世界哪有那麼美好？更多時候，我們的數據關係是「單調」但「非線性」的。什麼叫單調？就是當一個變數增加，另一個變數也跟著增加（或減少），但增加或減少的幅度不一定一樣。比如，你每天多睡一小時，剛開始可能精神會好很多，但睡到某個程度，再多睡一小時，精神提升的幅度就沒那麼大了。這就是單調關係，但它不是線性的。所以重點是，當你的數據關係不是一條直線時，Pearson 相關係數就會給你一個「假象」，讓你以為不相關，或相關性很弱。

實際上怎麼做？

這時候，我們就需要請出另一位老朋友，叫做 Spearman 相關係數。它專門處理這種「單調關係」。怎麼做呢？說穿了很簡單，它不看原始數值，而是把你的數據轉換成「排名」之後，再去計算相關性。

舉個實際的例子：

假設你今天有 5 片晶圓，它們的「曝光時間」分別是 100、105、110、120、130 秒。
而對應的「Cpk」分別是 1.08、1.25、1.30、1.31、1.15。

如果你用 Pearson 算，可能發現 Cpk 在曝光時間拉到 130 秒時反而下降，導致相關性不如預期。但如果用 Spearman：

我們把曝光時間排名：100 (1st)、105 (2nd)、110 (3rd)、120 (4th)、130 (5th)。
再把 Cpk 排名：1.08 (1st)、1.15 (2nd)、1.25 (3rd)、1.30 (4th)、1.31 (5th)。

然後再針對這些排名去計算相關係數。你會發現，即使原始數值沒有嚴格的線性關係，只要趨勢是往同一個方向走的，Spearman 就能抓出來。所以，下次你在看數據的時候，如果懷疑是不是非線性關係，就兩種都跑跑看！

最常見的坑

我踩過最大的坑，就是把 Pearson 相關係數當成唯一的判斷標準。那次為了追一個 DPMO 從 6210 飆到 8500 的問題，花了三天三夜，結果發現某個蝕刻時間參數跟 DPMO 關係不明顯，Pearson 只有 0.2。我還跟老闆報告說：「這個參數不是主因。」結果老闆不信邪，叫我畫散佈圖。一畫才發現，蝕刻時間在某個區間內 DPMO 很低，但超過那個區間，DPMO 就會暴增，呈現一個類似「L」型的關係。這種圖，Pearson 當然抓不到，但 Spearman 一跑，相關係數馬上跳到 0.75！當下真的只能摸摸鼻子，重新調整分析方向。所以，光看數字不畫圖，絕對會吃大虧。

今天能做的一件事

下次跑相關性，兩種係數都跑一遍，然後畫個散佈圖。