殘差分析在改善驗證：模型適合度的評估

那天 CPK 報告出來，全場沉默了三秒，我才懂「殘差」的意義

話說那天，我們產線一個新產品準備量產，第一次的 CPK 報告出來，結果是 1.08。全場沉默了三秒，然後就聽到老總的聲音：「1.08？這要怎麼跟客戶交代？」大家都知道，CPK 1.33 才是基本門檻，1.08 根本是給自己找麻煩。後來追查才發現，我們那套驗證模型在某些特定條件下，預測值跟實際值總是差一截。當時我就在想，這模型到底哪裡出了問題？說穿了，我們就是沒搞懂「殘差」這個小惡魔。

問題出在哪？為什麼模型總差那麼一點？

你是不是也遇過類似狀況？模型跑出來的數據很漂亮，但實際生產就是差那麼一點。坦白講，這就是你的模型「適合度」有問題。白話一點說，模型沒有百分之百抓到所有影響結果的因素。我們驗證的時候，常常會建立一個模型去預測結果，比如預測某個參數在不同機台、不同批次下的表現。殘差分析，其實就是在看你的模型預測值跟實際值之間到底差多少。這個「差多少」就是殘差。

所以重點是，殘差越大，代表你的模型預測越不準。如果殘差有規律性，那就更麻煩了，代表你的模型可能漏掉了某些重要的變數。像是我們那次，CPK 1.08，DPMO 高達 6210，殘差圖一跑出來，馬上看到幾個批次的數據點總是偏離預測線好大一段。這不就是模型沒把那些批次的特殊性考慮進去嗎？

實際上怎麼做？殘差圖這樣看

殘差分析其實很簡單，你不用去鑽研什麼複雜的統計公式。最直觀的就是看「殘差圖」。

隨機分佈最好： 如果你的殘差圖，數據點是隨機散落在零軸上下，沒有任何規律，那恭喜你，你的模型適合度還不錯。這代表你的模型已經盡力解釋了大部分的變異。
發現規律性就慘了： 如果你看到殘差呈現像喇叭狀、V字形，或是像波浪一樣有週期性，那就要小心了。這表示你的模型有系統性的偏差。像我們那次，殘差圖呈現一個明顯的U字形，一堆驗證數據在特定操作區間就跟預測值差很多。這表示我們模型可能忽略了溫度或濕度對那個區間的影響。
異常點處理： 有時候你會看到幾個點突然跑超遠，遠離其他數據點。這些就是異常點（Outlier）。它們可能是量測錯誤，也可能是真的有特殊原因造成。先檢查是不是量測出錯，如果不是，就要深入研究這些異常點背後的原因。

換句話說，看殘差圖就是在幫你的模型「照X光」，看看有沒有藏著什麼沒被發現的病灶。

最常見的坑：數字漂亮不代表一切

說實話，我以前也犯過這個錯。模型跑出來，R-squared 值很高，覺得很滿意。結果量產一下去，問題就來了。那次是我們在做一個新材料的良率預測模型，R-squared 跑到 0.95，看起來超棒。但實際生產，良率就是卡在 98.2%，怎麼都上不去。後來做殘差分析才發現，殘差圖在低溫製程區塊呈現一個明顯的向下彎曲趨勢，這表示模型低估了低溫製程的良率損耗。當時我們就是因為太相信 R-squared，而忽略了殘差圖發出的警訊。

說穿了，R-squared 只是告訴你模型解釋了多少變異，但沒告訴你模型是不是有系統性錯誤。別讓漂亮的數字騙了你，殘差圖才是模型適合度的照妖鏡。

今天能做的一件事

把手邊模型的殘差圖找出來，看看有沒有規律性。