那天早班,機台又無預警停機了
欸,你還記得上次我們那個老鳥學長,臉色鐵青地衝到辦公室,拍桌大罵:「是哪個天才把 PM schedule 亂改的?!機台又給我無預警停機了!」的場景嗎?我跟你說,那天是個禮拜一早上,我還沒喝完我的大冰奶,就聽到 Fab 裡面警報響個不停。一堆人衝來衝去,結果發現是其中一台關鍵機台突然掛了,產線整個塞住。後來大家東查西查,才發現,靠,有些耗材根本就還沒到壽命,卻莫名其妙壞了;有些東西明明前天才 PM 完,今天又出包。那時候我就想,這些機台故障到底有沒有模式啊?難道每次都要搞得像猜樂透一樣?
問題出在哪?機台不是你想壞,想壞就能壞
說穿了,機台故障通常就分三種模式,我們工程師常講的「浴缸曲線」就是在講這個。
- 早夭失效 (Early Failure):這種就像你買新車,結果開出去沒多久就拋錨一樣。通常是設計不良、製造瑕疵、或是安裝沒裝好、PM 沒做到位造成的。新機台剛上線、新零件剛換上去,特別容易遇到這種。Cpk 如果很低,例如只有 0.8,那就代表你的產品或製程變異度太大,很容易出問題。
- 隨機失效 (Random Failure):這種就真的靠運氣了,沒啥規律可循。就像路上突然被小石頭打到擋風玻璃一樣,防不勝防。通常發生在機台穩定運作一段時間後,可能是外在環境影響、電壓不穩、或是材料微觀缺陷等等。這種的 DPMO 可能高達 6210 ppm,表示你的製程穩定性有問題,需要從系統層面去抓。
- 磨損失效 (Wear-out Failure):這個最容易理解,就是東西用久了,自然就壞了。軸承磨損、燈泡燒壞、電纜老化,這種都可以預期。通常發生在機台使用壽命的後期。
所以重點來了,你要是連故障模式都搞不清楚,怎麼去預防?怎麼去排 PM schedule?
實際上怎麼做?用數據說話
要判斷是哪種模式,其實說穿了就是「看數據」。
- 分析故障時間點:如果大部分故障都集中在「剛換完零件」或「機台剛上線」的前幾天,那八成就是早夭失效。你就要去檢查零件供應商品質、安裝 SOP 有沒有落實。
- 觀察故障分佈:如果故障時間點很分散,沒有明顯的高峰,而且發生在機台壽命的中間階段,那很可能就是隨機失效。這種情況下,你的重點應該放在改善製程穩定性、環境控制,甚至考慮導入預防性維護。
- 監測零件壽命:如果你發現某個零件總是用了固定時數後就壞掉,而且有明顯的趨勢,那恭喜你,這是最容易處理的磨損失效。你只要根據數據,把 PM 週期設定在零件預期壽命之前,就能大幅減少無預警停機。例如,我們有個馬達軸承,過去平均用了 5000 小時就會出問題,那我們就把 PM 週期設定在 4500 小時,直接預防掉很多停機。
換句話說,你得把過去的故障紀錄攤開來看,別只是當成報表交差。
最常見的坑:懶得分類,結果越修越慘
說實話,我以前也踩過這個坑。剛開始當設備工程師,每次機台壞掉就是衝上去修,修完就沒事了。根本沒時間、也沒想過要去分析這是哪種失效模式。結果就是,早夭失效的問題一直重複發生,因為你只換了零件,沒去抓根本原因;磨損失效的零件用到掛掉才換,每次都搞到產線大塞車;隨機失效更慘,因為沒辦法預測,只能被動應對。有一次,我們一台幫浦頻繁漏水,每次都只是換 O-ring,結果換了三次還是在漏。後來才發現,根本原因不是 O-ring 本身,而是幫浦的組裝公差太大,導致 O-ring 受力不均,這就是典型的早夭失效,你光換耗材根本沒用!
坦白講,很多時候我們不是不知道要分類,而是覺得「沒那個美國時間」。但越是這樣,你就會陷入「修不完」的惡性循環。
今天能做的一件事
把你們機台最近三次的故障紀錄拿出來,試著判斷它們是早夭、隨機還是磨損失效。