情境
你建了一個迴歸模型,R² = 0.87,P 值也很顯著。主管看了點點頭說「不錯」。但你在用模型預測時,發現預測值在高溫區域系統性偏低。
問題出在哪?R² 沒問題、P 值沒問題,但模型假設被違反了,而你沒有做殘差分析。
什麼是殘差
殘差 = 實際值 - 預測值每個數據點都有一個殘差,代表模型沒有解釋到的部分。如果模型完美,殘差應該是隨機雜訊——沒有任何規律、沒有型態。
殘差分析就是找殘差有沒有型態。有型態代表模型有問題。
四種必看的殘差圖
1. 殘差 vs 配適值圖(Residuals vs Fitted)
X 軸:模型預測值
Y 軸:殘差
理想狀況: 點隨機散布在 0 附近,無型態 問題訊號:2. 常態機率圖(Normal Probability Plot of Residuals)
理想狀況: 點落在直線上 問題訊號:3. 殘差 vs 順序圖(Residuals vs Order)
X 軸:數據收集順序
Y 軸:殘差
理想狀況: 隨機分布 問題訊號:4. 殘差直方圖
理想狀況: 鐘型對稱分布 問題訊號:發現問題後怎麼辦
殘差分析 vs 模型指標
三個都要看,缺一不可。
金句
「R² 告訴你模型有多好,殘差圖告訴你模型有沒有說謊。只看 R² 是只問成績,沒問作弊了沒。」