那天 CPK 報告出來,全場沉默了三秒,我看到組長臉都綠了
還記得幾年前有一次,我們一條新產品線剛上線,良率衝不太上去。老闆每天盯著 CPK 數據,希望我們能把關鍵尺寸的 CPK 衝過 1.33。結果那天報表出來,有個最關鍵的 gate length 數據,CPK 只有 1.08。全場沉默了三秒,我看到組長臉都綠了。大家面面相覷,都不知道問題出在哪。因為單看每個參數的管制圖,好像都在管制線內啊?沒有任何一個點衝出去。這時候,你就會開始懷疑人生,想說到底哪裡出問題了。
問題出在哪?不是單一參數在搞鬼,是它們「聯合」起來搞事
說穿了就是這樣,很多時候,製程出了問題,它不是單一一個參數突然暴衝給你看到。更多時候是,幾個參數都只是「稍微」偏離一點點,但當它們一起偏離的時候,那個「聯合效應」就會讓你的產品良率直接跳水。就像你開車,方向盤稍微偏一點,油門稍微踩深一點,煞車稍微慢一點,單獨看都還好,但三個一起發生,那就等著撞車了。
我們平時看的管制圖,通常都是單變量管制圖,一次只看一個變數。但實際上,半導體製程複雜得要死,參數跟參數之間不是獨立的,它們會互相影響。如果你只盯著單一個管制圖,很容易就會錯過這種「多重變數」聯合搞鬼的狀況。這就是為什麼我們需要「多重管制圖的同步監控策略」,白話一點講,就是一次看好幾個參數,而且要看它們「合起來」是不是有問題。
實際上怎麼做?看它們「偏離的幅度」組合拳
好啦,講那麼多理論,到底要怎麼做?坦白講,最常用也最實際的,就是用一些多變量管制圖,例如 Hotelling’s T2 管制圖或是 EWMA (Exponentially Weighted Moving Average) 管制圖的多變量版本。它們的原理,簡單來說就是去計算這些參數「組合起來」的「偏離程度」。
舉個例子,假設我們有兩個關鍵尺寸 A 和 B,它們的目標值都是 100。現在 A 量出來是 101,B 量出來是 101。如果單獨看,可能都還在管制線內,CPK 可能也還過得去。但如果我們知道 A 和 B 之間其實有很強的正相關,它們通常會一起動,那當 A 和 B 都同時往上偏 1 個單位的時候,這個「同時往上偏」的狀況,就可能是一個異常訊號了!
Hotelling’s T2 管制圖就是把這些多個變數的「偏離量」和它們之間的「共變關係」考慮進去,計算出一個綜合的統計量 T2。這個 T2 值如果超過管制上限,就代表這群變數「整體」出問題了。你不用去管哪個變數衝最兇,只要知道它們「合體」之後,已經超出正常範圍。
所以重點是,這個 T2 值就是一個「綜合分數」,當這個分數高到一個程度,就代表你的製程可能已經在往 DPMO 6210 的方向狂奔了,即便單獨看每個參數的「小考」都還及格。
最常見的坑:選錯參數,或是過度反應
我剛開始學這個的時候,最常犯的錯就是「選錯參數」。你不能把所有參數都丟進去跑 T2,那會讓你的管制圖變得超級敏感,一點點風吹草動就警報大響,結果每天都在那邊追查「不存在的問題」,把時間都耗光了。我們曾經就發生過,把一些跟良率關聯性沒那麼高的參數也放進去,結果每天都看到 T2 警報,跑去查半天,最後才發現是誤判。
所以,要選擇真正影響產品品質的「關鍵參數」來做多變量監控。這些參數通常是那些你已經知道它們之間有交互作用,或者它們的單變量管制圖經常出現「邊緣化」狀況(就是雖然沒出界,但都在管制線邊緣徘徊)的。
另一個坑就是「過度反應」。T2 警報響了,不代表你馬上就要停機。它是一個「預警」訊號,告訴你現在製程可能正在往不好的方向走。這時候你需要做的是深入分析,看看是哪些變數的組合導致了 T2 值的異常。通常我們會搭配單變量管制圖一起看,找到那些「貢獻最大」的變數,再去針對性地調整。
今天能做的一件事
回去看看你手邊的 CPK 報告,挑出那幾個每次都「剛好及格」的關鍵參數,試著用多變量思維去想想它們之間有沒有什麼關聯性。