F 檢定：兩組變異數相等性的比較

那天 CPK 報告出來，全場沉默了三秒

還記得好幾年前，我們廠剛裝了一批新的高階量測機台，準備要導入量產。那時候產線大家都很期待，因為舊機台動不動就卡料，搞得大家火氣都很大。新機台裝好後，測試階段跑了一堆數據，我被叫去開會看報告。結果，當負責的工程師投影出那張 CPK 報告時，全場真的是沉默了三秒。CPK 值低到一個讓人想罵髒話的程度，產線主管的臉色直接垮下來。大家都開始碎碎念：「新機台不是說很穩嗎？」「是不是參數沒設好？」那時候，我心裡就有個底了，八成又是「變異數」在搞鬼。

問題出在哪？

說穿了，很多時候我們看數據，常常只看平均值，覺得平均值差不多就沒事。但實際上一條產線穩不穩，除了平均值要準，更重要的是「變異數」要小。想像一下，你今天開車，時速平均 60 公里很正常，但如果你的車速一下 20、一下 100，雖然平均是 60，但這樣開車是不是很危險？這就是變異數大的問題。

回到剛剛機台的例子，新機台的 CPK 爆掉，很大的原因就是它的量測結果「不穩定」，也就是變異數太大了。這時候，我們就需要 F 檢定來幫忙。F 檢定簡單來說，就是拿兩組數據的變異數來比較，看看它們是不是真的有顯著差異。用白話文解釋，它就是告訴你：「這兩批產品的品質穩定度，到底有沒有一樣？」

實際上怎麼做

F 檢定其實就是幫你比兩組數據的變異數。假設今天我們要比較新舊兩批材料的尺寸穩定度。

收集數據：

* 新材料批次 A：抽樣 30 個，量測尺寸得到一組數據。

* 舊材料批次 B：同樣抽樣 30 個，量測尺寸得到另一組數據。

計算變異數： 分別算出這兩組數據的變異數。你會得到一個 S^2_A 和一個 S^2_B。

計算 F 值： F 值就是兩組變異數的比值。通常我們會把變異數比較大的放在分子。

* 例如，如果 S^2_A 是 0.0025，S^2_B 是 0.0009。

* 那麼 F 值 = 0.0025 / 0.0009 ≈ 2.78。

查表或用軟體： 接著，你要根據你的「顯著水準」（通常是 0.05 或 0.01）和兩組數據的「自由度」（樣本數減 1），去查 F 分配表，或直接用統計軟體（Excel、Minitab 都行）跑出來一個 P 值。

判斷：

* 如果 P 值小於 0.05（你設定的顯著水準），那就代表兩組的變異數「有顯著差異」。換句話說，這兩批材料的穩定度就是不一樣，你需要找出原因。

* 如果 P 值大於 0.05，那麼恭喜你，兩組變異數「沒有顯著差異」，代表它們的穩定度是差不多的。

那天新機台的例子，我們就用 F 檢定去比較了它在不同參數設定下的量測結果變異數。結果發現，某個參數設定下的變異數，跟我們過去驗證過很穩定的機台比起來，F 值大到一個誇張，P 值幾乎是 0。這就鐵證如山地證明：新機台在這個參數設定下，量測結果確實不穩。

最常見的坑

說實話，我踩過最大的坑，就是以為數據越多越好。以前剛進公司，每次遇到問題，就拚命叫產線多跑一點數據，覺得樣本數夠大，結果一定準。但 F 檢定有個小眉角，它對數據的「常態性」很敏感。如果你兩組數據，其中一組或兩組都不是常態分佈，你硬去跑 F 檢定，結果可能就會失真。

記得有一次，我們在比較不同供應商提供的化學藥品批次穩定性。我抓了兩批藥品，每批都取了 100 個樣品去測試濃度。跑了 F 檢定，P 值是 0.001，超顯著，想說終於抓到供應商品質不穩了。結果後來被資深學長打槍，他叫我先跑常態分佈檢定，才發現其中一批藥品的濃度數據是偏態的，根本不符合常態分佈。這樣就不能直接用 F 檢定，得改用其他非參數檢定。所以，別急著跑 F 檢定，先確認你的數據是不是常態分佈，這很重要！

今天能做的一件事

打開 Excel 或 Minitab，找兩組你手邊的生產數據，跑一下 F 檢定，看看 P 值是多少。