那天 CPK 報告出來,全場沉默了三秒,我才懂「殘差」的意義
話說那天,我們產線一個新產品準備量產,第一次的 CPK 報告出來,結果是 1.08。全場沉默了三秒,然後就聽到老總的聲音:「1.08?這要怎麼跟客戶交代?」大家都知道,CPK 1.33 才是基本門檻,1.08 根本是給自己找麻煩。後來追查才發現,我們那套驗證模型在某些特定條件下,預測值跟實際值總是差一截。當時我就在想,這模型到底哪裡出了問題?說穿了,我們就是沒搞懂「殘差」這個小惡魔。
問題出在哪?為什麼模型總差那麼一點?
你是不是也遇過類似狀況?模型跑出來的數據很漂亮,但實際生產就是差那麼一點。坦白講,這就是你的模型「適合度」有問題。白話一點說,模型沒有百分之百抓到所有影響結果的因素。我們驗證的時候,常常會建立一個模型去預測結果,比如預測某個參數在不同機台、不同批次下的表現。殘差分析,其實就是在看你的模型預測值跟實際值之間到底差多少。這個「差多少」就是殘差。
所以重點是,殘差越大,代表你的模型預測越不準。如果殘差有規律性,那就更麻煩了,代表你的模型可能漏掉了某些重要的變數。像是我們那次,CPK 1.08,DPMO 高達 6210,殘差圖一跑出來,馬上看到幾個批次的數據點總是偏離預測線好大一段。這不就是模型沒把那些批次的特殊性考慮進去嗎?
實際上怎麼做?殘差圖這樣看
殘差分析其實很簡單,你不用去鑽研什麼複雜的統計公式。最直觀的就是看「殘差圖」。
- 隨機分佈最好: 如果你的殘差圖,數據點是隨機散落在零軸上下,沒有任何規律,那恭喜你,你的模型適合度還不錯。這代表你的模型已經盡力解釋了大部分的變異。
- 發現規律性就慘了: 如果你看到殘差呈現像喇叭狀、V字形,或是像波浪一樣有週期性,那就要小心了。這表示你的模型有系統性的偏差。像我們那次,殘差圖呈現一個明顯的U字形,一堆驗證數據在特定操作區間就跟預測值差很多。這表示我們模型可能忽略了溫度或濕度對那個區間的影響。
- 異常點處理: 有時候你會看到幾個點突然跑超遠,遠離其他數據點。這些就是異常點(Outlier)。它們可能是量測錯誤,也可能是真的有特殊原因造成。先檢查是不是量測出錯,如果不是,就要深入研究這些異常點背後的原因。
換句話說,看殘差圖就是在幫你的模型「照X光」,看看有沒有藏著什麼沒被發現的病灶。
最常見的坑:數字漂亮不代表一切
說實話,我以前也犯過這個錯。模型跑出來,R-squared 值很高,覺得很滿意。結果量產一下去,問題就來了。那次是我們在做一個新材料的良率預測模型,R-squared 跑到 0.95,看起來超棒。但實際生產,良率就是卡在 98.2%,怎麼都上不去。後來做殘差分析才發現,殘差圖在低溫製程區塊呈現一個明顯的向下彎曲趨勢,這表示模型低估了低溫製程的良率損耗。當時我們就是因為太相信 R-squared,而忽略了殘差圖發出的警訊。
說穿了,R-squared 只是告訴你模型解釋了多少變異,但沒告訴你模型是不是有系統性錯誤。別讓漂亮的數字騙了你,殘差圖才是模型適合度的照妖鏡。
今天能做的一件事
把手邊模型的殘差圖找出來,看看有沒有規律性。