多重管制圖的同步監控策略

那天 CPK 報告出來，全場沉默了三秒，我看到組長臉都綠了

還記得幾年前有一次，我們一條新產品線剛上線，良率衝不太上去。老闆每天盯著 CPK 數據，希望我們能把關鍵尺寸的 CPK 衝過 1.33。結果那天報表出來，有個最關鍵的 gate length 數據，CPK 只有 1.08。全場沉默了三秒，我看到組長臉都綠了。大家面面相覷，都不知道問題出在哪。因為單看每個參數的管制圖，好像都在管制線內啊？沒有任何一個點衝出去。這時候，你就會開始懷疑人生，想說到底哪裡出問題了。

問題出在哪？不是單一參數在搞鬼，是它們「聯合」起來搞事

說穿了就是這樣，很多時候，製程出了問題，它不是單一一個參數突然暴衝給你看到。更多時候是，幾個參數都只是「稍微」偏離一點點，但當它們一起偏離的時候，那個「聯合效應」就會讓你的產品良率直接跳水。就像你開車，方向盤稍微偏一點，油門稍微踩深一點，煞車稍微慢一點，單獨看都還好，但三個一起發生，那就等著撞車了。

我們平時看的管制圖，通常都是單變量管制圖，一次只看一個變數。但實際上，半導體製程複雜得要死，參數跟參數之間不是獨立的，它們會互相影響。如果你只盯著單一個管制圖，很容易就會錯過這種「多重變數」聯合搞鬼的狀況。這就是為什麼我們需要「多重管制圖的同步監控策略」，白話一點講，就是一次看好幾個參數，而且要看它們「合起來」是不是有問題。

實際上怎麼做？看它們「偏離的幅度」組合拳

好啦，講那麼多理論，到底要怎麼做？坦白講，最常用也最實際的，就是用一些多變量管制圖，例如 Hotelling’s T2 管制圖或是 EWMA (Exponentially Weighted Moving Average) 管制圖的多變量版本。它們的原理，簡單來說就是去計算這些參數「組合起來」的「偏離程度」。

舉個例子，假設我們有兩個關鍵尺寸 A 和 B，它們的目標值都是 100。現在 A 量出來是 101，B 量出來是 101。如果單獨看，可能都還在管制線內，CPK 可能也還過得去。但如果我們知道 A 和 B 之間其實有很強的正相關，它們通常會一起動，那當 A 和 B 都同時往上偏 1 個單位的時候，這個「同時往上偏」的狀況，就可能是一個異常訊號了！

Hotelling’s T2 管制圖就是把這些多個變數的「偏離量」和它們之間的「共變關係」考慮進去，計算出一個綜合的統計量 T2。這個 T2 值如果超過管制上限，就代表這群變數「整體」出問題了。你不用去管哪個變數衝最兇，只要知道它們「合體」之後，已經超出正常範圍。

所以重點是，這個 T2 值就是一個「綜合分數」，當這個分數高到一個程度，就代表你的製程可能已經在往 DPMO 6210 的方向狂奔了，即便單獨看每個參數的「小考」都還及格。

最常見的坑：選錯參數，或是過度反應

我剛開始學這個的時候，最常犯的錯就是「選錯參數」。你不能把所有參數都丟進去跑 T2，那會讓你的管制圖變得超級敏感，一點點風吹草動就警報大響，結果每天都在那邊追查「不存在的問題」，把時間都耗光了。我們曾經就發生過，把一些跟良率關聯性沒那麼高的參數也放進去，結果每天都看到 T2 警報，跑去查半天，最後才發現是誤判。

所以，要選擇真正影響產品品質的「關鍵參數」來做多變量監控。這些參數通常是那些你已經知道它們之間有交互作用，或者它們的單變量管制圖經常出現「邊緣化」狀況（就是雖然沒出界，但都在管制線邊緣徘徊）的。

另一個坑就是「過度反應」。T2 警報響了，不代表你馬上就要停機。它是一個「預警」訊號，告訴你現在製程可能正在往不好的方向走。這時候你需要做的是深入分析，看看是哪些變數的組合導致了 T2 值的異常。通常我們會搭配單變量管制圖一起看，找到那些「貢獻最大」的變數，再去針對性地調整。

今天能做的一件事

回去看看你手邊的 CPK 報告，挑出那幾個每次都「剛好及格」的關鍵參數，試著用多變量思維去想想它們之間有沒有什麼關聯性。