情境
你建了一個迴歸模型,R² = 0.87,P 值也很顯著。主管看了點點頭說「不錯」。但你在用模型預測時,發現預測值在高溫區域系統性偏低。
問題出在哪?R² 沒問題、P 值沒問題,但模型假設被違反了,而你沒有做殘差分析。
什麼是殘差
殘差 = 實際值 - 預測值
每個數據點都有一個殘差,代表模型沒有解釋到的部分。如果模型完美,殘差應該是隨機雜訊——沒有任何規律、沒有型態。
殘差分析就是找殘差有沒有型態。有型態代表模型有問題。
四種必看的殘差圖
1. 殘差 vs 配適值圖(Residuals vs Fitted)
X 軸:模型預測值
Y 軸:殘差
理想狀況: 點隨機散布在 0 附近,無型態
問題訊號:
- 扇形展開(異方差):高預測值的殘差變大 → 考慮對 Y 取 log
- 曲線型態(非線性):模型應加入 X² 項
- 分群:數據可能來自不同製程或批次
2. 常態機率圖(Normal Probability Plot of Residuals)
理想狀況: 點落在直線上
問題訊號:
- S 型曲線:殘差分布有厚尾,可能有離群值
- 兩段直線:數據可能混合了兩種分布
3. 殘差 vs 順序圖(Residuals vs Order)
X 軸:數據收集順序
Y 軸:殘差
理想狀況: 隨機分布
問題訊號:
- 趨勢:有時間效應(設備磨耗、溫度漂移)
- 週期性:輪班效應或週期性干擾
4. 殘差直方圖
理想狀況: 鐘型對稱分布
問題訊號:
- 偏態:可能需要轉換
- 雙峰:數據混合了兩個族群
發現問題後怎麼辦
| 問題 | 可能解法 |
|---|---|
| 非線性 | 加入 X² 或交互項 |
| 異方差 | 對 Y 取 log 或加權迴歸 |
| 時間趨勢 | 加入「時間」作為共變數 |
| 離群值 | 確認原因後決定保留或移除 |
| 非常態 | 樣本夠大時不太影響,樣本小時考慮非參數方法 |
殘差分析 vs 模型指標
| 指標 | 告訴你什麼 | 告訴不了你什麼 |
|---|---|---|
| R² | 整體解釋力 | 模型假設是否成立 |
| P 值 | 係數是否顯著 | 殘差是否隨機 |
| 殘差分析 | 假設是否成立 | 解釋力大小 |
三個都要看,缺一不可。
金句
「R² 告訴你模型有多好,殘差圖告訴你模型有沒有說謊。只看 R² 是只問成績,沒問作弊了沒。」