樣本數計算：t 檢定、ANOVA、比例檢定的公式

那天 CPK 報告出來，全場沉默了三秒，老闆的臉綠了

那天下午，產線良率會議，主管照例報告上週數據。報告到新機台的 Cpk，螢幕上赫然出現一個 1.08 的數字。現場空氣瞬間凝結，老闆的臉瞬間發綠。他說：「這 Cpk 1.08？你們送了幾片樣本量就敢說這台機台沒問題？」我心裡OS：「啊不就 SOP 寫 30 片嗎？」結果被老闆電到飛天。從那天起，我才真的去搞懂「樣本數」這檔事，不是 SOP 寫多少就多少，背後真的有學問。

問題出在哪？你的「感覺」不可靠

說穿了，樣本數不夠，你的結論就是賭博。你今天抽了 5 片晶圓，量測一個關鍵尺寸，然後就說這批貨都符合規格，這跟擲骰子有什麼兩樣？你怎麼知道那 5 片不是剛好都落在分佈的甜蜜點？當樣本數太少，你的數據變異性會很大，就算算出來 Cpk 1.33，也可能只是運氣好。換句話說，你用「感覺」或「習慣」來決定樣本數，就等於在生產線上放炸彈，隨時可能爆炸。這不只是統計問題，更是風險管理。

實際上怎麼做？看你的「檢定目的」

坦白講，決定樣本數沒有單一公式，要看你用的「統計檢定」是什麼。最常用的大概就是這幾種：

t 檢定 (比較兩組平均值)：

假設你有一批新的化學藥劑，想看看它是不是真的能讓蝕刻速率比舊的快。你需要知道期望的「效果大小」（新舊藥劑的蝕刻速率差異）、你願意承擔的「風險」（Type I error，通常是 0.05），還有你希望發現差異的「能力」（Power，通常是 0.8 或 0.9）。

舉例來說，如果舊藥劑平均蝕刻速率是 100 nm/min，標準差是 5 nm/min。你希望新藥劑至少能提升 3 nm/min，而且你有 90% 的信心能偵測到這個差異，那麼用軟體跑一下，可能每組需要 45 片晶圓。說實話，手算公式很複雜，現在都有線上計算機或 JMP 軟體可以幫忙。

ANOVA (比較三組以上平均值)：

如果你有三種不同的 PVD 機台，想比較它們的膜厚均勻度。概念跟 t 檢定很像，一樣要設定效果大小、風險和能力。只是因為比較組數更多，計算會更複雜。

假設你有 A、B、C 三台機台，舊機台 A 的膜厚均勻度標準差是 0.5%，你希望新機台 B 和 C 的均勻度能比 A 好 0.2%。一樣設定好你的 alpha (0.05) 和 power (0.8)，算出來可能每台機台至少要量測 60 片。

比例檢定 (比較良率或瑕疵率)：

最常見的就是良率比較。例如你開發了一個新製程，想看看不良率是不是真的從 6210 DPMO (0.621%) 降到 3000 DPMO (0.3%)。

這時候，你會需要知道目前的比例（P1）、你期望達到的比例（P2）、以及一樣的風險 (alpha) 和能力 (power)。

假設你目前的良率是 99.379%，你期望新製程能提升到 99.7%。如果想用 95% 的信心說新製程真的有改善，而且有 80% 的能力偵測到這個改善，你可能需要抽 2500 片晶圓來驗證。這數字聽起來很驚人，但如果你要讓高良率的製程再往上跳，樣本數就是會這麼大。

所以重點是，你必須先想清楚你要「證明什麼」，然後根據那個目的選擇對應的檢定方法，才能算出合理的樣本數。

最常見的坑：拿歷史數據硬套

我以前最常犯的錯，就是直接拿 SOP 上的樣本數來用，或是看學長怎麼做就跟著做。結果就是，有時候樣本數太少，根本抓不到製程的細微變化；有時候樣本數又太多，浪費時間、人力、物料。

有一次，我們測試一個新的晶圓清洗機，照 SOP 抽了 20 片做前後比對。結果報告出來，良率「看起來」有改善，但統計上卻不顯著。老闆就問：「你是不是樣本數不夠，所以看不出來？」後來重新評估，如果想偵測到 0.5% 的良率改善，20 片根本不夠，至少要 500 片才行！那次的教訓是，別把 SOP 當聖經，SOP 可能是根據以前的經驗值訂的，但你的製程目標和變異性可能都不同了。

今天能做的一件事

打開 Excel 或 JMP，開始練習用軟體計算不同情境下的樣本數。