InsightFab
知識庫/多元線性迴歸:變數選擇與多重共線性處理
統計分析6 分鐘閱讀

多元線性迴歸:變數選擇與多重共線性處理

嘿,跟你說,這篇文章超值得一讀!它在講以前作者遇到製程良率卡關的困境,明明用盡方法、跑出超漂亮的數據模型,但良率卻還是沒起色,結果全場尷尬沉默三秒。讀完你會知道,很多時候我們自以為拉進越多的數據、模型越複雜就代表越厲害,但其實這樣根本搞錯重點,反而會離問題的核心越來越遠,學到怎麼避免數據分析的「菜鳥錯誤」!

那天 Cpk 報告出來,全場沉默了三秒

還記得好幾年前,我們有一條新製程的良率一直卡關,DPMO 硬是壓不下來,穩定在 6210 左右。每天會議都像在開檢討會,PM、製程、設備,大家臉都綠了。那時候,大頭叫我從數據下手,看有沒有什麼蛛絲馬跡。我二話不說,抓了所有想得到的參數,什麼機台設定、化學品濃度、反應時間、甚至連操作員班別都拉進來,直接跑了一個多變量迴歸。結果報告一出來,嚇死人,R-squared 高達 0.95,看起來超棒,但 Cpk 報告依舊是 1.08,沒啥起色。全場沉默了三秒,空氣中瀰漫著一股「你是不是在莊孝維」的氣氛。

問題出在哪?你的模型真的「懂」製程嗎?

說穿了,那時候我就是犯了個菜鳥常犯的錯:以為參數拉越多越好,模型看起來很漂亮就代表我搞懂了。但其實,這就跟你在聯誼會上,明明喜歡的對象就那幾個,你卻硬要加一百個不認識的女生 LINE 一樣,搞到最後根本不知道誰是誰。統計上,這就是「變數選擇」的問題。你拉進來的變數,有些可能根本沒影響,有些甚至彼此之間有高度相關,也就是所謂的「多重共線性」。

想一想,你同時把「機台溫度設定值」跟「機台實際溫度」都丟進去分析,這兩者八成會高度相關吧?如果模型把這兩個都當成獨立的影響因素,那就會產生誤導,結果就是模型看起來很神,但對實際製程改善根本沒用,甚至會給你錯誤的方向。

實際上怎麼做?用統計把「冗員」踢掉

所以重點是,我們要找出那些真正有影響力、而且彼此獨立的變數。坦白講,這沒有萬靈丹,但有幾個方法你可以試試:

  1. 逐步迴歸 (Stepwise Regression):這就像是讓電腦幫你自動篩選。它會一個一個把變數加進去或踢出去,然後根據統計指標(像 AIC、BIC 值)去判斷哪個組合最好。但要注意,這不是絕對的,有時候它選出來的組合不一定符合你的製程知識。

  1. VIF 值 (Variance Inflation Factor):這是專門用來抓「多重共線性」的。簡單來說,如果一個變數的 VIF 值很高(通常超過 5 或 10 就要小心),就代表它跟其他變數的相關性太高。這時候,你就要考慮是不是把它踢掉,或是有沒有其他變數可以取代它。

  1. 領域知識 (Domain Knowledge):說實話,這才是最重要的。統計工具只是輔助,你對製程的了解才是關鍵。像那天,我後來去跟設備工程師、製程工程師聊過後,才發現有幾個參數根本是連動的,丟進去只是互相干擾。這時候,寧可相信你的經驗,把那些「表面上有效」但「實質上無用」的變數捨棄。

舉個例,如果你的模型顯示「機台 A 的功率」跟「機台 B 的轉速」對良率都有影響,但你知道這兩者其實是因為同一個中央控制系統在調整,那你就應該考慮只保留其中一個,或是找到那個真正源頭的變數。

最常見的坑:看到 R-squared 高就嗨翻

我年輕的時候,最常犯的錯就是看到 R-squared 衝到 0.9 以上就嗨翻,覺得自己是統計之神。結果隔天去現場驗證,發現改善幅度根本不及預期。這就是因為模型可能包含太多「多重共線性」的變數。它們讓模型看起來解釋力超強,但實際上,這些變數的貢獻是重疊的,甚至互相抵銷。

另一個坑是,有時候你為了讓模型「好看」,硬是要把一些沒什麼關係的變數拉進來。結果搞到模型太複雜,反而失去了「解釋性」。要知道,我們的目的是要找到「因果關係」,不是單純的「相關性」。一個簡單但精準的模型,遠比一個複雜但失真的模型有用得多。

今天能做的一件事

回去打開你的迴歸模型,算一下每個變數的 VIF 值。

想試試看?

文章裡提到的分析工具在 InsightFab 都可以直接用,上傳 CSV 即可分析。

前往工具頁面

同類別文章

常態分配假設的檢定:Shapiro-Wilk vs Anderson-Darling

欸,跟你說,最近看到一篇超實用的文章!它在講以前工廠良率很差,結果 CPK 報告出來,數據根本對不上 DPMO,全場傻眼。讀完你會知道,原來很多統計指標像 CPK 都有個大前提,就是你的數據得符合「常態分配」才準。如果數據不是常態,那些算出來的數字根本是白搭!所以啊,下次做分析前,記得先用 Shapiro-Wilk 檢定一下,才不會鬧出烏龍喔!

統計檢定力(Power):如何確保結論有意義

嘿,跟你分享一篇很有趣的文章!作者那天興高采烈拿著CPK從1.08進步到1.25的數據給老闆看,結果老闆一句「你確定這樣有差?」讓他瞬間語塞。 這篇文章超實用,它點出我們工程師常犯的錯誤——光看數據有變就急著下結論,卻沒考慮到那可能是隨機波動或樣本不足。裡面會教你怎麼用「統計檢定力」來證明你的結論夠不夠穩,讓你下次報告時,面對老闆的質疑也能自信滿滿!讀完你會知道怎麼讓你的數據說服力更強喔!

信賴區間的正確解讀:95% CI 不是你想的那樣

嘿,最近看到一篇超實用的文章!它從一個大家在開會時都可能遇過的尷尬情境說起:CPK 報告出來,PM 盯著 1.08 的數據和旁邊的「95% CI: 0.95-1.21」,問這到底是好是壞?然後大家就靜默了。讀完你會知道,我們平常對信賴區間的理解,尤其那個「95% 的機率落在這個區間」根本是錯的!這篇文會教你信賴區間的正確解讀方式,讓你以後看報表不再一頭霧水,超推!