情境
你做了假設檢定,兩條生產線的良率差異 P = 0.003,非常顯著。主管問:「差多少?我們需要把 B 線停下來改善嗎?」你看了看數據:A 線良率 98.3%,B 線良率 98.1%。
P 值顯著,但差異只有 0.2%,值得大動作嗎?
P 值的限制
P 值回答:「如果兩組真的沒有差異,觀察到這麼大差異的機率是多少?」
當樣本數夠大,即使極小的差異也會得到非常小的 P 值。P < 0.05 只代表差異不是隨機,不代表差異有實際意義。
什麼是效果量
效果量(Effect Size)量化差異的實際大小,獨立於樣本數。
常用指標:
Cohen's d(比較兩組均值)
d = (μ₁ - μ₂) / 合併標準差
| d 值 | 解讀 |
|---|---|
| 0.2 | 小效果 |
| 0.5 | 中效果 |
| 0.8 | 大效果 |
η²(ANOVA,解釋變異比例)
| η² 值 | 解讀 |
|---|---|
| 0.01 | 小效果(1% 變異) |
| 0.06 | 中效果(6% 變異) |
| 0.14 | 大效果(14% 變異) |
r(相關係數,也是效果量)
| r 值 | 解讀 |
|---|---|
| 0.1 | 小效果 |
| 0.3 | 中效果 |
| 0.5 | 大效果 |
P 值 + 效果量的四種組合
| P 值 | 效果量 | 解讀 |
|---|---|---|
| 顯著 | 大 | 差異真實且重要,需要行動 |
| 顯著 | 小 | 差異真實但不重要,樣本可能太大 |
| 不顯著 | 大 | 樣本可能太小,差異可能真實存在 |
| 不顯著 | 小 | 沒有差異,或差異無實際意義 |
工廠場景應用
場景: 比較新舊製程的 Cpk
- P = 0.02(顯著)
- Cohen's d = 0.15(小效果)
- Cpk 從 1.40 改善到 1.43
→ 差異統計顯著,但實際意義很小。改善製程的成本是否值得這 0.03 的 Cpk 提升?這是管理決策,不是統計決策。
金句
「P 值告訴你差異是否真實,效果量告訴你差異是否重要——只看 P 值做決策,是讓統計替你的商業判斷負責。」