那天 CPK 報告出來,全場沉默了三秒,我才想到是它
記得有一次,我們新開發的產品要量產,製程參數調了好幾輪,想說應該穩了。結果第一批貨的 CPK 報告一出來,直接掉到 1.08,DPMO 衝到 6210!會議室瞬間安靜,老闆臉都綠了。大家面面相覷,幾十個參數,電壓、電流、溫度、時間,每個都說自己沒問題,但良率就是上不去。那時候我心想,這麼多變數,到底誰才是真正的兇手?難道要一個一個去抓嗎?這不是搞死自己嗎?
問題出在哪?你的數據太多了啦!
說穿了,很多時候我們不是沒有數據,而是數據多到爆炸,根本不知道重點在哪。想像一下,你手上有一百個感測器,每個都在記錄晶圓製程中的不同資訊。這些變數彼此之間可能有關聯,有些可能根本沒什麼影響,有些卻是關鍵中的關鍵。但因為數量太多,當良率出問題時,你很難從密密麻麻的報表中一眼看出端倪。
所以重點是,我們需要一種方法,把這些「糾纏不清」的變數,簡化成幾個「真正有代表性」的指標。白話一點,就是把一堆看起來複雜的資訊,提煉出最重要的幾個元素,讓你看起來一目瞭然。這個方法,就是主成分分析(Principal Component Analysis,簡稱 PCA)。
換句話說,PCA 就像一個聰明的數據壓縮機。它會去分析你所有數據之間的關係,然後找出幾條「最能代表」這些數據變化的新軸線。這些新軸線,我們就叫做「主成分」。它能把原本幾十個甚至幾百個參數,濃縮成兩三個核心變數,而且還能保留大部分的原始資訊。
實際上怎麼做?看懂「變異量解釋比例」就對了
在實際操作 PCA 時,你不需要手動算那些複雜的矩陣,現在的統計軟體或 Python 套件都一鍵搞定。你只要丟入你的製程數據,它就會跑出幾個主成分。
- 看「變異量解釋比例」(Explained Variance Ratio):這是 PCA 結果中最關鍵的指標。它會告訴你,每個主成分能解釋原始數據中多少比例的變異。
* 這代表你只要看這兩個主成分,就能解釋原始數據中 85% 的變化。是不是超棒?你把幾十個變數濃縮成兩個,還能抓到八成的重點。
- 決定要取幾個主成分:通常我們會取累積解釋比例達到 80% 或 90% 的主成分數量。如果你能用兩三個主成分就達到這個門檻,那就太完美了,因為這樣你就可以把結果畫在二維或三維圖上,直接用眼睛看。
當初 CPK 掉到 1.08 那次,我就是用 PCA 把 30 幾個製程參數降維成 3 個主成分。結果發現,良率低的那幾批貨,在主成分 1 和主成分 2 的圖上,明顯跟良率好的貨分成兩群。進一步分析這兩個主成分跟原始參數的關係,才發現某個加熱電壓的穩定性,以及另一個反應氣體的流量,才是真正搞鬼的元兇。
最常見的坑:看到圖就亂下結論
坦白講,很多人跑完 PCA,一看到那些五顏六色的降維圖就開始興奮,然後指著某個點說「你看!這裡有問題!」但如果你沒有仔細看每個主成分背後,到底是由哪些原始變數組合出來的,那你的結論可能就只是在瞎猜。
我遇過一個菜鳥工程師,他看到 PCA 的結果,某個批次的數據點跟其他批次分開了,就直接跟老闆說「這個批次製程有異常!」結果後來仔細一查,才發現那個批次根本就換了不同的材料供應商,所以製程參數的分布本來就應該不同。他沒有去理解主成分的意義,只是單純地看了「群聚」,差點就誤導了判斷。所以,一定要去鑽研每個主成分,它到底代表了哪些重要的原始變數。
今天能做的一件事
回去打開你最近遇到的製程數據,用 PCA 跑跑看,看能不能從一堆參數中,找到那幾個真正的關鍵。
文章分類:統計分析