情境
你想找出哪些製程參數會影響焊接是否不良。Y 是「良品 / 不良品」,X 是溫度、時間、壓力。同事說用迴歸,你建了線性迴歸,但預測值跑出了 1.3(超過 100%)和 -0.2(負的良率)——明顯不合理。
問題:線性迴歸假設 Y 是連續值,但你的 Y 只有 0 和 1。
邏輯迴歸是什麼
邏輯迴歸預測的不是 Y 本身,而是 Y = 1 的機率,且機率永遠在 0 到 1 之間。
核心數學:
P(Y=1) = 1 / (1 + e^-(β₀ + β₁X₁ + β₂X₂ + ...))
這個 S 型曲線(Sigmoid)確保輸出永遠在 [0,1]。
關鍵輸出解讀
Odds Ratio(勝算比)
邏輯迴歸的係數直接解讀不直觀,通常轉換成 Odds Ratio(OR):
OR = e^β
例子:
- 溫度係數 β = 0.08
- OR = e^0.08 = 1.083
- 解讀:溫度每升高 1°C,不良的機率是原來的 1.083 倍(增加 8.3%)
| OR 值 | 解讀 |
|---|---|
| > 1 | X 增加,Y=1 的機率增加 |
| = 1 | X 對 Y 無影響 |
| < 1 | X 增加,Y=1 的機率降低 |
P 值
和線性迴歸一樣,P < 0.05 代表這個 X 對 Y 有顯著影響。
Hosmer-Lemeshow 檢定
檢定模型整體擬合效果(類似迴歸的 F 檢定)。
P > 0.05:模型擬合良好
P < 0.05:模型擬合不佳,考慮加入其他變數或交互項
製造業常見應用
| 場景 | Y(1/0) | X(輸入) |
|---|---|---|
| 焊接良率 | 不良/良品 | 溫度、時間、助焊劑 |
| 射出成型 | 有縮水/無縮水 | 射速、保壓、料溫 |
| 設備壽命 | 故障/正常 | 使用時間、溫度、振動 |
| 供應商評估 | 不合格/合格 | 交期、單價、歷史不良率 |
邏輯迴歸 vs 線性迴歸
| 線性迴歸 | 邏輯迴歸 | |
|---|---|---|
| Y 的類型 | 連續值 | 二元(0/1) |
| 預測的是 | Y 的值 | Y=1 的機率 |
| 輸出範圍 | -∞ 到 +∞ | 0 到 1 |
| 模型評估 | R²、RMSE | AUC、混淆矩陣 |
決策閾值
邏輯迴歸輸出機率,你需要設定一個閾值來做決策(通常 0.5):
- P ≥ 0.5 → 預測為不良
- P < 0.5 → 預測為良品
閾值可以調整:如果不良品代價很高,可以降低到 0.3,寧可多一些誤報(假陽性),也不要漏掉真正的不良品。
金句
「當你的問題是『會不會』,不是『多少』,邏輯迴歸才是正確的工具。用線性迴歸預測是否不良,就像用溫度計量重量。」