那天 CPK 報告出來,全場沉默了三秒,你知道為什麼嗎?
還記得好幾年前,我們機台換了新材料,大家信心滿滿覺得良率肯定會衝上天。結果第一批貨跑完,品管把 CPK 報告丟出來,上面一個紅通通的 1.08。會議室裡瞬間空氣凝結,大家面面相覷。老闆臉都綠了,直接問:「誰能給我解釋一下,這到底是什麼分佈?」當時菜鳥工程師還傻傻地說「應該是常態分佈吧」,被老闆狠狠瞪了一眼。說實話,在半導體廠待這麼久,你總會遇到這種狀況,良率、缺陷、停機次數,這些數據背後其實都有它自己的個性。
問題出在哪?
說穿了,你處理的數據「長什麼樣子」,會直接影響你怎麼去分析它、怎麼去判斷異常。你不能期望所有數據都乖乖地呈現漂亮的鐘形曲線(也就是我們常說的常態分佈)。想像一下,如果你去計算機台一天當機的次數,這通常是個小數點後都是零的整數,而且大部分時候可能就一兩次,偶爾才來個五六次。這種數據,你怎麼能用常態分佈去套?
這時候,我們就需要認識三種在製造業超常用的數據分佈:
- Poisson 分佈(卜瓦松分佈):想像一下,你在數「在一個固定時間或空間內,某個事件發生了幾次」。最典型的就是「機台一天當機次數」、「晶圓上的缺陷數」、「生產線上發現的雜質顆粒數」。這些事件的發生是獨立的,而且發生機率很低,但發生次數卻是可數的整數。
- Binomial 分佈(二項式分佈):這個就很直觀了,它回答的是「重複做某件事 N 次,其中成功(或失敗)的次數是多少?」舉例來說,「生產 1000 顆晶片,其中合格品的數量是多少?」、「測試 50 個零件,有多少個是故障的?」每一次試驗只有兩種結果(成功或失敗),而且每次試驗的成功機率都一樣。
- Gamma 分佈(伽馬分佈):這個比較抽象一點,但其實也很有用。它常用來描述「在某個事件發生之前,需要等待多久的時間」。比方說,「機台兩次當機之間的間隔時間」、「一顆晶片從生產到失效的壽命」。它的值是連續的,而且通常是正數。
所以重點是,你手上的數據,到底是數「次數」、「數量」,還是「時間」?搞清楚這點,你才能選對工具。
實際上怎麼做?
要判斷你手上的數據該用哪種分佈,其實有幾個簡單的判斷標準:
- 如果你在數「事件發生的次數」,而且這些事件的機率很低,但試驗次數很多,通常就是 Poisson 分佈。
* 換句話說,當你在計算某個「單位」內的不良數、當機數,而且這些數值通常是小整數時,就往 Poisson 想。
- 如果你在數「成功或失敗的次數」,在固定總次數裡,通常就是 Binomial 分佈。
* 換句話說,當你有一個明確的「樣本數」N,然後你去數其中有多少「符合某個條件」的個體時,那就是 Binomial。
- 如果你在測量「兩個事件之間的間隔時間」,或者某個東西「壽命有多長」,通常就是 Gamma 分佈。
* 換句話說,當你的數據是連續的「時間」或「數值」,而且這個值不能是負數,而且你對「累積到一定程度才發生」的狀況有興趣,就考慮 Gamma。
坦白講,很多時候你會發現數據有點介於兩者之間。這時可以試著用統計軟體跑一下擬合度測試 (Goodness-of-Fit Test),看看哪種分佈最能代表你的數據。
最常見的坑
我遇過最大的坑就是,很多人都習慣性地把所有數據都當成常態分佈來分析。結果就是,CPK 算出來很漂亮,但良率卻怎麼都上不去。
記得有一次,我們分析某個製程的粒子數,工程師直接拿去算平均值和標準差,然後用常態分佈去畫管制圖。結果圖上一直有幾個點超標,但大家怎麼找都找不到原因。後來我一看數據,發現大部分時間粒子數都是 0 或 1,偶爾才跳到 5 或 6。這根本不是常態分佈!它就是典型的 Poisson 分佈。當我們改用適合 Poisson 的管制圖去分析時,那些「異常點」才真正顯現出它背後的意義,最後才抓到是某個耗材更換週期太長導致的。說實話,當時真的有種被數據「騙」了的感覺。
今天能做的一件事
打開你最近一份良率報告,看看那些數字,試著判斷它們是 Poisson、Binomial 還是 Gamma 分佈的典型。