情境
你有三條生產線,想知道各線的不良率是否有顯著差異。A 線 200 件中有 8 件不良,B 線 200 件中有 14 件不良,C 線 200 件中有 6 件不良。用 t-test?不行,這是計數數據,不是連續數據。
什麼是 Chi-squared 檢定
Chi-squared(χ²)檢定用於分析類別數據(Count Data)之間的關係,回答的問題是:
「觀察到的數據分布,和預期的分布有顯著差異嗎?」
三種主要用法:
用法一:適合度檢定(Goodness of Fit)
問題: 數據的分布符合預期的比例嗎?
例子: 產品有 A、B、C 三個等級,理論比例應為 50%:30%:20%。實際生產了 200 件,比例是否符合?
H₀: 實際分布符合預期比例
H₁: 實際分布不符合預期比例
用法二:獨立性檢定(Test of Independence)
問題: 兩個類別變數之間有關聯嗎?
例子: 不良類型(尺寸超差、外觀不良、功能異常)和生產班別(早班、晚班)有關係嗎?
製作列聯表(Contingency Table):
| 尺寸超差 | 外觀不良 | 功能異常 | 合計 | |
|---|---|---|---|---|
| 早班 | 12 | 8 | 5 | 25 |
| 晚班 | 6 | 15 | 4 | 25 |
| 合計 | 18 | 23 | 9 | 50 |
H₀: 不良類型和班別無關
H₁: 不良類型和班別有關
用法三:同質性檢定(Test of Homogeneity)
問題: 多個群組的類別分布相同嗎?
例子: 三條生產線的不良率是否相同?(就是上面情境的問題)
結果解讀
- P < 0.05: 拒絕 H₀,有顯著差異或關聯
- P ≥ 0.05: 無法拒絕 H₀,差異可能是隨機造成的
使用前提
| 條件 | 說明 |
|---|---|
| 每格期望次數 ≥ 5 | 若不滿足,合併類別或用 Fisher's exact test |
| 獨立樣本 | 同一個樣本不能出現在多個格子 |
| 類別數據 | 不適用於連續數據(用 t-test 或 ANOVA) |
金句
「當你的數據是在數件數,不是在量尺寸,Chi-squared 就是你的工具。」