情境
你發現塗布厚度跟塗料黏度、塗布速度、溫度都有關係。主管問:「如果我把速度從 10 調到 12,厚度會怎麼變?」你只做了簡單相關分析,無法同時考慮三個因子,答不上來。
這就是多元迴歸要解決的問題。
簡單迴歸 vs 多元迴歸
簡單線性迴歸: Y = a + b × X
只考慮一個輸入變數。
多元線性迴歸: Y = a + b₁X₁ + b₂X₂ + b₃X₃ + ...
同時考慮多個輸入變數,每個因子有自己的係數(影響程度)。
關鍵指標解讀
R²(決定係數)
- 範圍 0-1,代表模型解釋了多少變異
- R² = 0.85:模型解釋 85% 的數據變化
- 一般製造業 R² > 0.7 才有實用價值
Adjusted R²
- 加入更多因子,R² 一定會上升(即使那個因子沒用)
- Adjusted R² 會懲罰無用因子,比 R² 更可靠
P 值(各因子)
- P < 0.05:這個因子對 Y 有顯著影響
- P > 0.05:這個因子的影響可能只是隨機,考慮從模型移除
VIF(方差膨脹因子)
- 偵測多重共線性(兩個輸入因子高度相關)
- VIF > 10:有嚴重共線性問題,模型係數不可信
實戰步驟
Step 1:確認各因子和 Y 的散佈圖
- 看是否有線性關係
- 找出明顯的異常值
Step 2:建立初始模型(放入所有可能因子)
Step 3:用 P 值篩選
- 移除 P > 0.05 的因子
- 重新建模,重複到所有因子都顯著
Step 4:確認模型假設
- 殘差圖:應隨機分布,不能有型態
- 常態機率圖:殘差應在直線上
- 殘差 vs 預測值:應無型態
Step 5:用模型預測
- 代入新的 X 值,得到 Y 的預測值和信賴區間
常見陷阱
| 陷阱 | 說明 | 解法 |
|---|---|---|
| 外插預測 | 預測超出原始數據範圍 | 只在數據範圍內預測 |
| 共線性 | X1 和 X2 高度相關 | 只留一個或用 PCA |
| 過度擬合 | 因子太多,對新數據預測差 | 用 Adjusted R² 控制 |
| 忽略交互作用 | A 和 B 共同影響 Y | 加入 A×B 交互項 |
金句
「迴歸方程式不是真理,是在你的數據範圍內最好的近似——出了這個範圍,請謙虛。」