InsightFab
知識庫/相關係數 Pearson vs Spearman:線性 vs 單調關係
統計分析6 分鐘閱讀

相關係數 Pearson vs Spearman:線性 vs 單調關係

嘿,跟你說,最近看到一篇超實用的文章,完全點醒了我!上次遇到產品良率突然暴跌,明明參數A還在範圍內,但PM卻跑來質疑我之前說「A跟良率高度相關」這件事,我當下也是一頭霧水。這篇文章就完美解釋了,我們常說的「相關係數」只看線性關係,如果數據本身不是線性變動,那相關係數再高也可能是個假象!讀完你會知道,下次再做數據分析,可不能只看單一指標就拍胸脯保證啦,超級推薦你去看看!

那天 CpK 報告出來,全場沉默了三秒

還記得上次出包嗎?就是那個,某個機台的晶圓,報廢率突然從 0.5% 飆到 2%,把大家嚇得半死。PM 一臉鐵青地跑來問我:「老張啊,上次說那個參數 A 跟良率有『高度相關』,還拍胸脯保證,結果現在良率爛成這樣,A 值明明還在 Spec 內啊,你是不是搞錯了什麼?」說實話,當下我心裡也涼了一截,明明跑了 Pearson 相關係數,高達 0.85,這麼漂亮的數字,怎麼會這樣?看著 PM 那張快要噴火的臉,我只好先打哈哈說:「嗯…這可能要再挖一下資料,看看是不是有其他隱藏的變數…」

問題出在哪?

坦白講,這個問題,大概你我也都遇過。我們在廠內做數據分析,常常習慣性地抓個 Pearson 相關係數,看到數字夠高,就覺得找到了聖杯。但說穿了,Pearson 相關係數它只看「線性關係」。什麼意思?就是當一個變數增加,另一個變數也跟著「等比例」增加或減少。想像一下,如果你每天多跑一公里,體重就等比例地減輕一點,這就是線性關係。

但現實世界哪有那麼美好?更多時候,我們的數據關係是「單調」但「非線性」的。什麼叫單調?就是當一個變數增加,另一個變數也跟著增加(或減少),但增加或減少的幅度不一定一樣。比如,你每天多睡一小時,剛開始可能精神會好很多,但睡到某個程度,再多睡一小時,精神提升的幅度就沒那麼大了。這就是單調關係,但它不是線性的。所以重點是,當你的數據關係不是一條直線時,Pearson 相關係數就會給你一個「假象」,讓你以為不相關,或相關性很弱。

實際上怎麼做?

這時候,我們就需要請出另一位老朋友,叫做 Spearman 相關係數。它專門處理這種「單調關係」。怎麼做呢?說穿了很簡單,它不看原始數值,而是把你的數據轉換成「排名」之後,再去計算相關性。

舉個實際的例子:

  1. 假設你今天有 5 片晶圓,它們的「曝光時間」分別是 100、105、110、120、130 秒。
  2. 而對應的「Cpk」分別是 1.08、1.25、1.30、1.31、1.15。

如果你用 Pearson 算,可能發現 Cpk 在曝光時間拉到 130 秒時反而下降,導致相關性不如預期。但如果用 Spearman:

  1. 我們把曝光時間排名:100 (1st)、105 (2nd)、110 (3rd)、120 (4th)、130 (5th)。
  2. 再把 Cpk 排名:1.08 (1st)、1.15 (2nd)、1.25 (3rd)、1.30 (4th)、1.31 (5th)。

然後再針對這些排名去計算相關係數。你會發現,即使原始數值沒有嚴格的線性關係,只要趨勢是往同一個方向走的,Spearman 就能抓出來。所以,下次你在看數據的時候,如果懷疑是不是非線性關係,就兩種都跑跑看!

最常見的坑

我踩過最大的坑,就是把 Pearson 相關係數當成唯一的判斷標準。那次為了追一個 DPMO 從 6210 飆到 8500 的問題,花了三天三夜,結果發現某個蝕刻時間參數跟 DPMO 關係不明顯,Pearson 只有 0.2。我還跟老闆報告說:「這個參數不是主因。」結果老闆不信邪,叫我畫散佈圖。一畫才發現,蝕刻時間在某個區間內 DPMO 很低,但超過那個區間,DPMO 就會暴增,呈現一個類似「L」型的關係。這種圖,Pearson 當然抓不到,但 Spearman 一跑,相關係數馬上跳到 0.75!當下真的只能摸摸鼻子,重新調整分析方向。所以,光看數字不畫圖,絕對會吃大虧。

今天能做的一件事

下次跑相關性,兩種係數都跑一遍,然後畫個散佈圖。

想試試看?

文章裡提到的分析工具在 InsightFab 都可以直接用,上傳 CSV 即可分析。

前往工具頁面

同類別文章

常態分配假設的檢定:Shapiro-Wilk vs Anderson-Darling

欸,跟你說,最近看到一篇超實用的文章!它在講以前工廠良率很差,結果 CPK 報告出來,數據根本對不上 DPMO,全場傻眼。讀完你會知道,原來很多統計指標像 CPK 都有個大前提,就是你的數據得符合「常態分配」才準。如果數據不是常態,那些算出來的數字根本是白搭!所以啊,下次做分析前,記得先用 Shapiro-Wilk 檢定一下,才不會鬧出烏龍喔!

統計檢定力(Power):如何確保結論有意義

嘿,跟你分享一篇很有趣的文章!作者那天興高采烈拿著CPK從1.08進步到1.25的數據給老闆看,結果老闆一句「你確定這樣有差?」讓他瞬間語塞。 這篇文章超實用,它點出我們工程師常犯的錯誤——光看數據有變就急著下結論,卻沒考慮到那可能是隨機波動或樣本不足。裡面會教你怎麼用「統計檢定力」來證明你的結論夠不夠穩,讓你下次報告時,面對老闆的質疑也能自信滿滿!讀完你會知道怎麼讓你的數據說服力更強喔!

信賴區間的正確解讀:95% CI 不是你想的那樣

嘿,最近看到一篇超實用的文章!它從一個大家在開會時都可能遇過的尷尬情境說起:CPK 報告出來,PM 盯著 1.08 的數據和旁邊的「95% CI: 0.95-1.21」,問這到底是好是壞?然後大家就靜默了。讀完你會知道,我們平常對信賴區間的理解,尤其那個「95% 的機率落在這個區間」根本是錯的!這篇文會教你信賴區間的正確解讀方式,讓你以後看報表不再一頭霧水,超推!