製造業數據的常見分配：Poisson、Binomial、Gamma

那天 CPK 報告出來，全場沉默了三秒，你知道為什麼嗎？

還記得好幾年前，我們機台換了新材料，大家信心滿滿覺得良率肯定會衝上天。結果第一批貨跑完，品管把 CPK 報告丟出來，上面一個紅通通的 1.08。會議室裡瞬間空氣凝結，大家面面相覷。老闆臉都綠了，直接問：「誰能給我解釋一下，這到底是什麼分佈？」當時菜鳥工程師還傻傻地說「應該是常態分佈吧」，被老闆狠狠瞪了一眼。說實話，在半導體廠待這麼久，你總會遇到這種狀況，良率、缺陷、停機次數，這些數據背後其實都有它自己的個性。

問題出在哪？

說穿了，你處理的數據「長什麼樣子」，會直接影響你怎麼去分析它、怎麼去判斷異常。你不能期望所有數據都乖乖地呈現漂亮的鐘形曲線（也就是我們常說的常態分佈）。想像一下，如果你去計算機台一天當機的次數，這通常是個小數點後都是零的整數，而且大部分時候可能就一兩次，偶爾才來個五六次。這種數據，你怎麼能用常態分佈去套？

這時候，我們就需要認識三種在製造業超常用的數據分佈：

Poisson 分佈（卜瓦松分佈）：想像一下，你在數「在一個固定時間或空間內，某個事件發生了幾次」。最典型的就是「機台一天當機次數」、「晶圓上的缺陷數」、「生產線上發現的雜質顆粒數」。這些事件的發生是獨立的，而且發生機率很低，但發生次數卻是可數的整數。
Binomial 分佈（二項式分佈）：這個就很直觀了，它回答的是「重複做某件事 N 次，其中成功（或失敗）的次數是多少？」舉例來說，「生產 1000 顆晶片，其中合格品的數量是多少？」、「測試 50 個零件，有多少個是故障的？」每一次試驗只有兩種結果（成功或失敗），而且每次試驗的成功機率都一樣。
Gamma 分佈（伽馬分佈）：這個比較抽象一點，但其實也很有用。它常用來描述「在某個事件發生之前，需要等待多久的時間」。比方說，「機台兩次當機之間的間隔時間」、「一顆晶片從生產到失效的壽命」。它的值是連續的，而且通常是正數。

所以重點是，你手上的數據，到底是數「次數」、「數量」，還是「時間」？搞清楚這點，你才能選對工具。

實際上怎麼做？

要判斷你手上的數據該用哪種分佈，其實有幾個簡單的判斷標準：

如果你在數「事件發生的次數」，而且這些事件的機率很低，但試驗次數很多，通常就是 Poisson 分佈。

* 例子：你今天在檢查一片晶圓，發現了 3 個缺陷。或者 DPMO (Defects Per Million Opportunities) 算出來是 6210。這種就是 Poisson 的典型。

* 換句話說，當你在計算某個「單位」內的不良數、當機數，而且這些數值通常是小整數時，就往 Poisson 想。

如果你在數「成功或失敗的次數」，在固定總次數裡，通常就是 Binomial 分佈。

* 例子：你生產了 1000 片晶圓，其中有 980 片是良品。這裡的「良品數量」就是 Binomial 的結果。

* 換句話說，當你有一個明確的「樣本數」N，然後你去數其中有多少「符合某個條件」的個體時，那就是 Binomial。

如果你在測量「兩個事件之間的間隔時間」，或者某個東西「壽命有多長」，通常就是 Gamma 分佈。

* 例子：機台 A 平均每 8 小時當機一次，但實際觀察到它有時 5 小時當，有時 12 小時才當。這些當機間隔時間就可能是 Gamma 分佈。

* 換句話說，當你的數據是連續的「時間」或「數值」，而且這個值不能是負數，而且你對「累積到一定程度才發生」的狀況有興趣，就考慮 Gamma。

坦白講，很多時候你會發現數據有點介於兩者之間。這時可以試著用統計軟體跑一下擬合度測試 (Goodness-of-Fit Test)，看看哪種分佈最能代表你的數據。

最常見的坑

我遇過最大的坑就是，很多人都習慣性地把所有數據都當成常態分佈來分析。結果就是，CPK 算出來很漂亮，但良率卻怎麼都上不去。

記得有一次，我們分析某個製程的粒子數，工程師直接拿去算平均值和標準差，然後用常態分佈去畫管制圖。結果圖上一直有幾個點超標，但大家怎麼找都找不到原因。後來我一看數據，發現大部分時間粒子數都是 0 或 1，偶爾才跳到 5 或 6。這根本不是常態分佈！它就是典型的 Poisson 分佈。當我們改用適合 Poisson 的管制圖去分析時，那些「異常點」才真正顯現出它背後的意義，最後才抓到是某個耗材更換週期太長導致的。說實話，當時真的有種被數據「騙」了的感覺。

今天能做的一件事

打開你最近一份良率報告，看看那些數字，試著判斷它們是 Poisson、Binomial 還是 Gamma 分佈的典型。