那天 CPK 報告出來,全場沉默了三秒
還記得好幾年前,我們機台換了個新製程,照慣例跑完一輪,業務部就開始催,問說什麼時候可以量產。製造部產能壓力很大,一直唸說趕快開。我們產線工程師當然謹慎啊,叫他們再等等,統計數據還沒跑完。結果報告出來,Cpk 值只有 1.08。會議室瞬間安靜,連掉根針都聽得到,所有人的目光都掃向我。老闆臉色鐵青,問說:「Cpk 1.08?這要怎麼跟客戶交代?會不會出包?」
問題出在哪
說穿了,老闆問的其實就是一個「風險」問題。Cpk 1.08,的確是過了 1.0 的門檻,但離 1.33 還有段距離。這個數字代表什麼?它代表「良率不夠好」嗎?不一定。其實,我們真正要面對的是兩種錯誤:
- 型一錯誤 (Type I Error),也就是 α 錯誤:想像一下,我們宣布這個製程「有問題,不能量產」,但實際上它根本沒問題。這就像在產線上,你把良率明明正常的貨判成不良品,結果就是浪費產能,延誤交期,損失慘重。我們稱這是「誤殺忠良」。
- 型二錯誤 (Type II Error),也就是 β 錯誤:反過來,我們宣布這個製程「沒問題,可以量產」,但實際上它潛藏著品質問題。這就像把不良品當良品出貨,結果就是客戶抱怨,產品召回,信譽掃地。這就是「放虎歸山」。
所以重點是,當你看到 Cpk 1.08 的時候,你是在擔心「誤殺忠良」還是「放虎歸山」?老闆那天在意的,明顯就是後者。
實際上怎麼做
在半導體廠,我們對這兩種錯誤的取捨,其實就是看「代價」。
- 如果型一錯誤的代價很高:比如,你把一個其實良率很高的機台關掉,造成產能直接掉一半,損失幾千萬,那你就不能輕易說「有問題」。這時候,你會傾向把 α 值設得小一點(例如 0.01),要求很高的證據,才敢下「有問題」的判斷。
- 如果型二錯誤的代價很高:比如,一個有潛在缺陷的晶片出貨,可能導致客戶整批產品報廢,甚至影響到航太或醫療設備,那絕對是天大的事。這種情況下,你會傾向把 β 值設得小一點,寧可多檢查幾次,也不願放過任何一個潛在問題。
以 Cpk 1.08 的例子來說,我們通常會結合 DPMO (Defects Per Million Opportunities) 來看。1.08 的 Cpk 大約對應 DPMO 6210 左右。如果客戶對 DPMO 要求更嚴格,比如要 1000 以下,那你就算 Cpk 數字過了 1.0,也還是得想辦法改善。這時候,寧可承擔一點型一錯誤的風險(多花點時間驗證),也要避免型二錯誤(出貨出包)。
最常見的坑
我遇過最常見的坑,就是大家只看 Cpk 的數字,卻忘了背後的風險。有一次,某個新機台的 Cpk 勉強達到 1.33,製造部就想趕快開線。但我們發現它的分佈離目標值有點偏,雖然在規格內,但很不穩。如果這時候貿然放行,雖然 Cpk 數字好看,但製程飄移的風險很高,很可能幾天後就掉下去了,然後就是大量的不良品。這就是典型的「為了避免型一錯誤(延遲量產),卻大幅增加了型二錯誤(出貨出包)的風險」。說實話,這時候,寧願多花兩天時間調機台,把製程中心值拉回來,讓良率更穩健,才是真正聰明的做法。
今天能做的一件事
下次看到統計報告,先問自己:我現在最怕什麼?