InsightFab
知識庫/主成分分析(PCA):高維數據的降維視覺化
統計分析6 分鐘閱讀

主成分分析(PCA):高維數據的降維視覺化

欸,這篇超實用!如果你也遇過那種產品良率爆低、CPK 掉到谷底,但幾十個參數每個人都說自己沒問題的窘境,那一定要看看。作者分享了他過去開發新產品,結果第一批貨 DPMO 衝上天,老闆臉都綠的經驗。他發現問題不是沒數據,而是數據多到爆炸,根本不知道該從哪裡下手。讀完你會知道,怎麼從一堆「糾纏不清」的變數裡,快速找出誰才是影響品質的真兇,幫你精準解決問題,不再瞎忙!

那天 CPK 報告出來,全場沉默了三秒,我才想到是它

記得有一次,我們新開發的產品要量產,製程參數調了好幾輪,想說應該穩了。結果第一批貨的 CPK 報告一出來,直接掉到 1.08,DPMO 衝到 6210!會議室瞬間安靜,老闆臉都綠了。大家面面相覷,幾十個參數,電壓、電流、溫度、時間,每個都說自己沒問題,但良率就是上不去。那時候我心想,這麼多變數,到底誰才是真正的兇手?難道要一個一個去抓嗎?這不是搞死自己嗎?

問題出在哪?你的數據太多了啦!

說穿了,很多時候我們不是沒有數據,而是數據多到爆炸,根本不知道重點在哪。想像一下,你手上有一百個感測器,每個都在記錄晶圓製程中的不同資訊。這些變數彼此之間可能有關聯,有些可能根本沒什麼影響,有些卻是關鍵中的關鍵。但因為數量太多,當良率出問題時,你很難從密密麻麻的報表中一眼看出端倪。

所以重點是,我們需要一種方法,把這些「糾纏不清」的變數,簡化成幾個「真正有代表性」的指標。白話一點,就是把一堆看起來複雜的資訊,提煉出最重要的幾個元素,讓你看起來一目瞭然。這個方法,就是主成分分析(Principal Component Analysis,簡稱 PCA)。

換句話說,PCA 就像一個聰明的數據壓縮機。它會去分析你所有數據之間的關係,然後找出幾條「最能代表」這些數據變化的新軸線。這些新軸線,我們就叫做「主成分」。它能把原本幾十個甚至幾百個參數,濃縮成兩三個核心變數,而且還能保留大部分的原始資訊。

實際上怎麼做?看懂「變異量解釋比例」就對了

在實際操作 PCA 時,你不需要手動算那些複雜的矩陣,現在的統計軟體或 Python 套件都一鍵搞定。你只要丟入你的製程數據,它就會跑出幾個主成分。

  1. 看「變異量解釋比例」(Explained Variance Ratio):這是 PCA 結果中最關鍵的指標。它會告訴你,每個主成分能解釋原始數據中多少比例的變異。
* 例如,第一個主成分可能解釋了 70% 的變異,第二個解釋了 15%。

* 這代表你只要看這兩個主成分,就能解釋原始數據中 85% 的變化。是不是超棒?你把幾十個變數濃縮成兩個,還能抓到八成的重點。

  1. 決定要取幾個主成分:通常我們會取累積解釋比例達到 80% 或 90% 的主成分數量。如果你能用兩三個主成分就達到這個門檻,那就太完美了,因為這樣你就可以把結果畫在二維或三維圖上,直接用眼睛看。

當初 CPK 掉到 1.08 那次,我就是用 PCA 把 30 幾個製程參數降維成 3 個主成分。結果發現,良率低的那幾批貨,在主成分 1 和主成分 2 的圖上,明顯跟良率好的貨分成兩群。進一步分析這兩個主成分跟原始參數的關係,才發現某個加熱電壓的穩定性,以及另一個反應氣體的流量,才是真正搞鬼的元兇。

最常見的坑:看到圖就亂下結論

坦白講,很多人跑完 PCA,一看到那些五顏六色的降維圖就開始興奮,然後指著某個點說「你看!這裡有問題!」但如果你沒有仔細看每個主成分背後,到底是由哪些原始變數組合出來的,那你的結論可能就只是在瞎猜。

我遇過一個菜鳥工程師,他看到 PCA 的結果,某個批次的數據點跟其他批次分開了,就直接跟老闆說「這個批次製程有異常!」結果後來仔細一查,才發現那個批次根本就換了不同的材料供應商,所以製程參數的分布本來就應該不同。他沒有去理解主成分的意義,只是單純地看了「群聚」,差點就誤導了判斷。所以,一定要去鑽研每個主成分,它到底代表了哪些重要的原始變數。

今天能做的一件事

回去打開你最近遇到的製程數據,用 PCA 跑跑看,看能不能從一堆參數中,找到那幾個真正的關鍵。

文章分類:統計分析

想試試看?

文章裡提到的分析工具在 InsightFab 都可以直接用,上傳 CSV 即可分析。

前往工具頁面

同類別文章

常態分配假設的檢定:Shapiro-Wilk vs Anderson-Darling

欸,跟你說,最近看到一篇超實用的文章!它在講以前工廠良率很差,結果 CPK 報告出來,數據根本對不上 DPMO,全場傻眼。讀完你會知道,原來很多統計指標像 CPK 都有個大前提,就是你的數據得符合「常態分配」才準。如果數據不是常態,那些算出來的數字根本是白搭!所以啊,下次做分析前,記得先用 Shapiro-Wilk 檢定一下,才不會鬧出烏龍喔!

統計檢定力(Power):如何確保結論有意義

嘿,跟你分享一篇很有趣的文章!作者那天興高采烈拿著CPK從1.08進步到1.25的數據給老闆看,結果老闆一句「你確定這樣有差?」讓他瞬間語塞。 這篇文章超實用,它點出我們工程師常犯的錯誤——光看數據有變就急著下結論,卻沒考慮到那可能是隨機波動或樣本不足。裡面會教你怎麼用「統計檢定力」來證明你的結論夠不夠穩,讓你下次報告時,面對老闆的質疑也能自信滿滿!讀完你會知道怎麼讓你的數據說服力更強喔!

信賴區間的正確解讀:95% CI 不是你想的那樣

嘿,最近看到一篇超實用的文章!它從一個大家在開會時都可能遇過的尷尬情境說起:CPK 報告出來,PM 盯著 1.08 的數據和旁邊的「95% CI: 0.95-1.21」,問這到底是好是壞?然後大家就靜默了。讀完你會知道,我們平常對信賴區間的理解,尤其那個「95% 的機率落在這個區間」根本是錯的!這篇文會教你信賴區間的正確解讀方式,讓你以後看報表不再一頭霧水,超推!