DOE 在電子產品可靠度測試的應用

那天 CPK 報告出來，全場沉默了三秒，我心想：「完了，又要重測了」

還記得幾年前，我們有個新產品要出貨，結果可靠度測試報告出來，幾個關鍵參數的 CPK 值都只落在 1.08 左右。PM 和老闆的臉都綠了，因為這代表良率可能不高，而且客戶那邊肯定會抱怨。大家你看我我看你，最後老闆眼神就飄到我身上：「阿德啊，這怎麼辦？難道要我跟客戶說我們產品良率『還不錯』嗎？」說實話，那時我心裡也在滴血，因為這種狀況，擺明就是要找原因，然後重測，這可是錢和時間啊！

問題出在哪？不是你測不夠，是你測錯了！

很多時候，大家遇到產品可靠度不如預期，第一個反應就是：「再多測幾組！」，或是「把測試時間拉更長一點！」但說穿了，你只是用更多時間和資源去驗證「它會壞」，而不是找出「它為什麼會壞」、「怎麼樣才能不壞」。這就像你感冒了，一直吃止痛藥，卻不去看醫生找出病因。我們在半導體廠，常常面對幾十個甚至幾百個變數，光是溫度、濕度、電壓、頻率、材料批次…這些排列組合就夠你測到天荒地老。DOE (Design of Experiments)，實驗設計，就是在這種茫茫變數中，用最有效率的方式，找出關鍵因子，以及它們對結果的影響。換句話說，DOE 讓你用最少資源，找出最有效的解決方案。

實際上怎麼做？別再土法煉鋼了！

坦白講，以前沒用 DOE，大家都是「憑經驗」或「試誤法」。例如，發現產品在高溫下容易壞，就試著把溫度降低一點，或是換個散熱片。但這樣做，你只知道「A 有影響」，卻不知道「A 和 B 交互作用」會不會有更大的影響，或是有沒有其他隱藏的變數。

DOE 怎麼幫你？舉個例子：假設我們有個新封裝製程，想知道「烤箱溫度」、「烘烤時間」和「環氧樹脂品牌」這三個因子，對產品的「翹曲率」影響有多大。

定義響應變數 (Response Variable)： 我們要測量的結果，這裡就是「產品的翹曲率」。
定義因子 (Factors) 和水準 (Levels)：

* 烤箱溫度：例如，低溫 (150°C)、中溫 (170°C)、高溫 (190°C)。

* 烘烤時間：例如，短 (30min)、中 (45min)、長 (60min)。

* 環氧樹脂品牌：例如，品牌 A、品牌 B。

選擇實驗設計： 這裡通常會用「全因子實驗 (Full Factorial)」或「部分因子實驗 (Fractional Factorial)」。如果因子和水準不多，全因子實驗可以跑出所有組合，讓你看到所有交互作用。如果因子很多，部分因子實驗可以有效減少實驗次數。

* 以上面例子，如果我們用全因子實驗，就是 3 (溫度) x 3 (時間) x 2 (品牌) = 18 組實驗。每組跑個 50 顆 IC，再量測翹曲率，然後用統計軟體（Minitab 很常用）跑出 ANOVA (變異數分析)。

分析結果： 軟體會告訴你哪個因子對翹曲率影響最大，哪些因子之間有交互作用。例如，你可能會發現，在「高溫」且「烘烤時間長」的情況下，品牌 B 的環氧樹脂翹曲率會特別嚴重。這就是你以前土法煉鋼很難發現的「交互作用」。

所以重點是，DOE 讓你從數據中，精準找出問題的根源，而不是盲目猜測。

最常見的坑：實驗設計錯了，數據再漂亮都沒用

我見過最常見的坑，就是因子和水準設錯。有一次，一個同事想研究焊錫量對焊接強度的影響，他設了三個水準：1mg、2mg、3mg。結果實驗跑完，數據顯示焊錫量影響不大。但後來才發現，其實 1mg 到 3mg 之間，根本差異很小，真正會出問題的應該是 0.5mg 和 5mg 這種極端值。他的水準設在一個「影響不明顯」的區間，當然測不出什麼鳥來。所以，因子水準的選擇，一定要基於你對製程的理解，或是前期的小規模試驗 (Pilot Run)。如果你的實驗設計本身就有問題，那後面的統計分析再怎麼精妙，都只是在分析一堆沒意義的數字。

今天能做的一件事

想想你手邊最頭痛的一個可靠度問題，然後列出你認為可能影響它的 2-3 個「因子」。