InsightFab
知識庫/製造業數據的常見分配:Poisson、Binomial、Gamma
統計分析6 分鐘閱讀

製造業數據的常見分配:Poisson、Binomial、Gamma

欸,跟你說,最近看到一篇超實用的文章!它在講說,在工廠裡常常會遇到那種報告數據出來,結果大家臉都綠了的狀況,像是 CPK 報告數字超難看,或是機台當機次數等等。文章就點出一個很重要的觀念:你不能每次都預設數據是「常態分佈」啊!它會用很口語的方式跟你解釋,不同類型的數據其實有不同的「長相」,如果你用錯分析方法,就很容易誤判。讀完這篇,你會知道怎麼從數據的特性去判斷,並選對分析工具,避免再被老闆問倒!

那天 CPK 報告出來,全場沉默了三秒,你知道為什麼嗎?

還記得好幾年前,我們機台換了新材料,大家信心滿滿覺得良率肯定會衝上天。結果第一批貨跑完,品管把 CPK 報告丟出來,上面一個紅通通的 1.08。會議室裡瞬間空氣凝結,大家面面相覷。老闆臉都綠了,直接問:「誰能給我解釋一下,這到底是什麼分佈?」當時菜鳥工程師還傻傻地說「應該是常態分佈吧」,被老闆狠狠瞪了一眼。說實話,在半導體廠待這麼久,你總會遇到這種狀況,良率、缺陷、停機次數,這些數據背後其實都有它自己的個性。

問題出在哪?

說穿了,你處理的數據「長什麼樣子」,會直接影響你怎麼去分析它、怎麼去判斷異常。你不能期望所有數據都乖乖地呈現漂亮的鐘形曲線(也就是我們常說的常態分佈)。想像一下,如果你去計算機台一天當機的次數,這通常是個小數點後都是零的整數,而且大部分時候可能就一兩次,偶爾才來個五六次。這種數據,你怎麼能用常態分佈去套?

這時候,我們就需要認識三種在製造業超常用的數據分佈:

  1. Poisson 分佈(卜瓦松分佈):想像一下,你在數「在一個固定時間或空間內,某個事件發生了幾次」。最典型的就是「機台一天當機次數」、「晶圓上的缺陷數」、「生產線上發現的雜質顆粒數」。這些事件的發生是獨立的,而且發生機率很低,但發生次數卻是可數的整數。
  2. Binomial 分佈(二項式分佈):這個就很直觀了,它回答的是「重複做某件事 N 次,其中成功(或失敗)的次數是多少?」舉例來說,「生產 1000 顆晶片,其中合格品的數量是多少?」、「測試 50 個零件,有多少個是故障的?」每一次試驗只有兩種結果(成功或失敗),而且每次試驗的成功機率都一樣。
  3. Gamma 分佈(伽馬分佈):這個比較抽象一點,但其實也很有用。它常用來描述「在某個事件發生之前,需要等待多久的時間」。比方說,「機台兩次當機之間的間隔時間」、「一顆晶片從生產到失效的壽命」。它的值是連續的,而且通常是正數。

所以重點是,你手上的數據,到底是數「次數」、「數量」,還是「時間」?搞清楚這點,你才能選對工具。

實際上怎麼做?

要判斷你手上的數據該用哪種分佈,其實有幾個簡單的判斷標準:

  1. 如果你在數「事件發生的次數」,而且這些事件的機率很低,但試驗次數很多,通常就是 Poisson 分佈。
* 例子:你今天在檢查一片晶圓,發現了 3 個缺陷。或者 DPMO (Defects Per Million Opportunities) 算出來是 6210。這種就是 Poisson 的典型。

* 換句話說,當你在計算某個「單位」內的不良數、當機數,而且這些數值通常是小整數時,就往 Poisson 想。

  1. 如果你在數「成功或失敗的次數」,在固定總次數裡,通常就是 Binomial 分佈。
* 例子:你生產了 1000 片晶圓,其中有 980 片是良品。這裡的「良品數量」就是 Binomial 的結果。

* 換句話說,當你有一個明確的「樣本數」N,然後你去數其中有多少「符合某個條件」的個體時,那就是 Binomial。

  1. 如果你在測量「兩個事件之間的間隔時間」,或者某個東西「壽命有多長」,通常就是 Gamma 分佈。
* 例子:機台 A 平均每 8 小時當機一次,但實際觀察到它有時 5 小時當,有時 12 小時才當。這些當機間隔時間就可能是 Gamma 分佈。

* 換句話說,當你的數據是連續的「時間」或「數值」,而且這個值不能是負數,而且你對「累積到一定程度才發生」的狀況有興趣,就考慮 Gamma。

坦白講,很多時候你會發現數據有點介於兩者之間。這時可以試著用統計軟體跑一下擬合度測試 (Goodness-of-Fit Test),看看哪種分佈最能代表你的數據。

最常見的坑

我遇過最大的坑就是,很多人都習慣性地把所有數據都當成常態分佈來分析。結果就是,CPK 算出來很漂亮,但良率卻怎麼都上不去。

記得有一次,我們分析某個製程的粒子數,工程師直接拿去算平均值和標準差,然後用常態分佈去畫管制圖。結果圖上一直有幾個點超標,但大家怎麼找都找不到原因。後來我一看數據,發現大部分時間粒子數都是 0 或 1,偶爾才跳到 5 或 6。這根本不是常態分佈!它就是典型的 Poisson 分佈。當我們改用適合 Poisson 的管制圖去分析時,那些「異常點」才真正顯現出它背後的意義,最後才抓到是某個耗材更換週期太長導致的。說實話,當時真的有種被數據「騙」了的感覺。

今天能做的一件事

打開你最近一份良率報告,看看那些數字,試著判斷它們是 Poisson、Binomial 還是 Gamma 分佈的典型。

想試試看?

文章裡提到的分析工具在 InsightFab 都可以直接用,上傳 CSV 即可分析。

前往工具頁面

同類別文章

常態分配假設的檢定:Shapiro-Wilk vs Anderson-Darling

欸,跟你說,最近看到一篇超實用的文章!它在講以前工廠良率很差,結果 CPK 報告出來,數據根本對不上 DPMO,全場傻眼。讀完你會知道,原來很多統計指標像 CPK 都有個大前提,就是你的數據得符合「常態分配」才準。如果數據不是常態,那些算出來的數字根本是白搭!所以啊,下次做分析前,記得先用 Shapiro-Wilk 檢定一下,才不會鬧出烏龍喔!

統計檢定力(Power):如何確保結論有意義

嘿,跟你分享一篇很有趣的文章!作者那天興高采烈拿著CPK從1.08進步到1.25的數據給老闆看,結果老闆一句「你確定這樣有差?」讓他瞬間語塞。 這篇文章超實用,它點出我們工程師常犯的錯誤——光看數據有變就急著下結論,卻沒考慮到那可能是隨機波動或樣本不足。裡面會教你怎麼用「統計檢定力」來證明你的結論夠不夠穩,讓你下次報告時,面對老闆的質疑也能自信滿滿!讀完你會知道怎麼讓你的數據說服力更強喔!

信賴區間的正確解讀:95% CI 不是你想的那樣

嘿,最近看到一篇超實用的文章!它從一個大家在開會時都可能遇過的尷尬情境說起:CPK 報告出來,PM 盯著 1.08 的數據和旁邊的「95% CI: 0.95-1.21」,問這到底是好是壞?然後大家就靜默了。讀完你會知道,我們平常對信賴區間的理解,尤其那個「95% 的機率落在這個區間」根本是錯的!這篇文會教你信賴區間的正確解讀方式,讓你以後看報表不再一頭霧水,超推!