情境
你發現塗布厚度跟塗料黏度、塗布速度、溫度都有關係。主管問:「如果我把速度從 10 調到 12,厚度會怎麼變?」你只做了簡單相關分析,無法同時考慮三個因子,答不上來。
這就是多元迴歸要解決的問題。
簡單迴歸 vs 多元迴歸
簡單線性迴歸: Y = a + b × X
只考慮一個輸入變數。
多元線性迴歸: Y = a + b₁X₁ + b₂X₂ + b₃X₃ + ...
同時考慮多個輸入變數,每個因子有自己的係數(影響程度)。
關鍵指標解讀
R²(決定係數)
範圍 0-1,代表模型解釋了多少變異
R² = 0.85:模型解釋 85% 的數據變化
一般製造業 R² > 0.7 才有實用價值
Adjusted R²
加入更多因子,R² 一定會上升(即使那個因子沒用)
Adjusted R² 會懲罰無用因子,比 R² 更可靠
P 值(各因子)
P < 0.05:這個因子對 Y 有顯著影響
P > 0.05:這個因子的影響可能只是隨機,考慮從模型移除
VIF(方差膨脹因子)
偵測多重共線性(兩個輸入因子高度相關)
VIF > 10:有嚴重共線性問題,模型係數不可信
實戰步驟
Step 1:確認各因子和 Y 的散佈圖
看是否有線性關係
找出明顯的異常值
Step 2:建立初始模型(放入所有可能因子)
Step 3:用 P 值篩選
移除 P > 0.05 的因子
重新建模,重複到所有因子都顯著
Step 4:確認模型假設
殘差圖:應隨機分布,不能有型態
常態機率圖:殘差應在直線上
殘差 vs 預測值:應無型態
Step 5:用模型預測
代入新的 X 值,得到 Y 的預測值和信賴區間
常見陷阱
| 陷阱 | 說明 | 解法 |
| 外插預測 | 預測超出原始數據範圍 | 只在數據範圍內預測 |
| 共線性 | X1 和 X2 高度相關 | 只留一個或用 PCA |
| 過度擬合 | 因子太多,對新數據預測差 | 用 Adjusted R² 控制 |
| 忽略交互作用 | A 和 B 共同影響 Y | 加入 A×B 交互項 |
金句
「迴歸方程式不是真理,是在你的數據範圍內最好的近似——出了這個範圍,請謙虛。」