那天 CPK 報告出來,我差點把咖啡噴到老闆臉上
還記得大概五年前吧,那時候我們廠裡有個新的高階蝕刻機台剛上線,每天盯著良率看,壓力山大。結果有一次,設備部門的同事跑來跟我說,製程參數的 CPK 報告出來了,結果是 1.08。我心想:「哇,不錯啊,至少比 1 好。」結果他下一句就說:「可是,缺陷率一直居高不下,DPMO 還是破萬,老闆臉都綠了。」我聽完差點把咖啡噴到老闆臉上。這完全不合理啊!CPK 1.08 照理說 DPMO 應該在 3000-4000 左右,怎麼會破萬?那時候我才意識到,我們對連續流程的 SPC,可能有點誤解。
問題出在哪?你的「點」跟「線」不一樣
說穿了,連續流程的 SPC 跟離散流程最大的差異,就在於你的「數據點」代表什麼。我們在做晶圓製造,很多製程是連續性的,比如薄膜沉積的厚度、CMP 的移除速率、濕蝕刻的蝕刻量,這些參數不會是突然跳一下,而是隨著時間、溫度、濃度等等因素慢慢變動。
你想像一下,離散流程(像數晶圓缺陷數)就像你每次點名,一個蘿蔔一個坑。但連續流程就像你拿溫度計量水溫,你每分鐘量一次,但水溫是持續在變的。我們習慣把每小時或每班次的平均值當成一個「點」來做 SPC 分析,然後用這些「點」來計算 CPK。
所以重點來了:當你用連續流程的「平均值」來做 SPC,你看到的變異,其實是「點與點之間」的變異。它沒有辦法很好地捕捉到「點內部」的變異,也就是製程在取樣間隔內,本身微小的波動。如果這個內部變異很大,但你只看平均值,你的 CPK 值就會被「稀釋」掉,看起來很漂亮,但實際上製程的穩定度比你想像的差很多。這就是為什麼 CPK 1.08,但 DPMO 卻高到嚇人的原因。
實際上怎麼做?請出你的「移動平均」和「移動全距」
那遇到這種情況怎麼辦?最常見的解法,就是導入「移動平均 (Moving Average, MA)」和「移動全距 (Moving Range, MR)」圖。
簡單來說,你不再只看每個班次的單一平均值,而是看連續幾個取樣點的平均值,當作一個新的數據點。例如,你每小時量一次參數值,你可以看最近三個小時的平均值當作一個點。這樣做的好處是,移動平均圖對製程的微小偏移更敏感,能更快發現問題。
同時,你也要搭配移動全距圖。移動全距是什麼?它就是連續幾個取樣點之間的最大值減最小值。用白話文講,就是這段時間內,製程波動的「幅度」。如果移動平均圖沒什麼變化,但移動全距圖突然暴增,那就代表製程雖然平均值穩定,但內部的「震盪」變大了,很可能就是問題的開端。
舉個例,假設你的蝕刻速率目標是 100 埃/分鐘。你每小時量一次。
1pm: 98
2pm: 102
3pm: 99
4pm: 105
如果你只看單點,可能都覺得還好。但如果你看移動平均(取兩個點的平均):
1-2pm 平均:100
2-3pm 平均:100.5
3-4pm 平均:102
如果你看移動全距(取兩個點的全距):
1-2pm 全距:4 (102-98)
2-3pm 全距:3 (102-99)
3-4pm 全距:6 (105-99)
你會發現,雖然平均值看起來平穩,但全距有變大的趨勢。這時候,你就要開始警覺了。
最常見的坑:選錯取樣頻率,跟沒做一樣
說實話,我以前也踩過這種坑。最大的問題就是「取樣頻率」的選擇。有些製程工程師為了省事,或者因為機台限制,把取樣頻率設得太低。比如一個變化很快的製程,你卻每八小時才取樣一次。這就等於你在看一個快速閃爍的燈泡,結果你卻每隔很久才拍一張照,根本捕捉不到它閃爍的頻率。
結果就是,移動平均圖和移動全距圖都看不出異樣,因為你根本沒抓到製程變異的本質。等問題真的大到影響良率了,你才發現,數據上「一直都很正常」。說穿了就是,你的取樣頻率要能「跟得上」製程變化的速度。如果一個製程變化很快,你卻慢吞吞地取樣,那這些數據就只是安慰劑而已。
坦白講,選取樣頻率沒有標準答案,很多時候要靠經驗和對製程的了解。一開始可以試著加密取樣,跑一陣子後再根據實際變異情況去調整。不要怕麻煩,因為抓到問題點的效益絕對更大。
今天能做的一件事
重新檢視你手上最關鍵的連續製程參數,看看它的取樣頻率是不是夠合理。