那天客戶 PM 臉色鐵青,說我們產品「夭壽短命」
還記得有一次,那年頭我才剛升上資深沒多久,客戶的 PM 直接殺到廠裡,臉色比我熬夜兩天的肝還綠。他一開口就劈頭問:「你們的晶片怎麼回事?才用不到三個月就掛掉一大批!這是要我怎麼跟最終客戶交代?」我一聽心裡涼半截,心想,測試不是都過了嗎?良率也沒問題啊!但問題是,產品到了客戶手上,真的就是「早夭」。這種事一發生,不僅是賠錢,更傷的是商譽,對我們這些在第一線的工程師來說,那壓力真的山大。後來仔細一查,才發現是環境應力篩選(ESS)沒做足,讓那些「帶病」的晶片偷跑出去了。
問題出在哪?別讓「早夭晶片」毒害你的名聲
說穿了,很多產品在出廠前,看似都沒問題,但其實裡面藏著一些「潛在缺陷」。這些缺陷可能是一點點的製程瑕疵、封裝應力、或是材料的微小異常。它們不是那種一上機就掛掉的「嬰兒猝死」,而是像定時炸彈,在正常使用一段時間後才爆炸。這就是我們常說的「早夭失效」(Early Life Failure)。
你想想看,如果你買了一支新手機,用不到半年就開始卡頓、過熱,甚至直接死機,你會怎麼想?是不是覺得這產品「短命」?ESS 的目的,就是要把這些還沒完全壞掉,但已經「病入膏肓」的晶片,在出廠前就「篩」出來。換句話說,ESS 就是提早把這些早夭的產品「催熟」,讓它們在你手上就壞掉,而不是在客戶手上。
實際上怎麼做?用嚴刑峻法逼出問題
ESS 實際上怎麼做?簡單來講,就是給你的產品「上酷刑」。我們會刻意用比正常操作更嚴苛的條件去跑它,讓產品承受巨大的壓力。這些壓力通常來自:
- 高溫高濕: 通常會在 125°C 甚至 150°C 的環境下,跑個 48 小時到 168 小時不等。濕度可能拉到 85%。我們曾經設定過 150°C 跑 96 小時,就是為了看那些潛在裂縫會不會擴大。
- 溫度循環: 讓產品在極高溫和極低溫之間快速切換,例如從 -40°C 到 125°C,來回跑個幾百次。這會讓材料熱脹冷縮,加速疲勞。
- 電壓應力: 讓產品在比額定電壓更高一點的條件下運作,例如 Vcc 從 1.2V 拉到 1.35V。
這些「酷刑」的目標,就是希望那些有缺陷的產品,會在這段時間內加速失效。如果你的產品經過 ESS 之後,不良率沒有顯著增加,那恭喜你,你的產品體質夠好。我們曾經有個產品,一開始 ESS 後失效比率高達 0.5% (5000 DPM),經過製程改善,再跑 ESS,成功降到 0.005% (50 DPM),這才敢大量出貨。所以重點是,你必須找到一個夠「痛」的 ESS 條件,才能有效篩選。
最常見的坑:佛系 ESS,佛系出事
我見過太多團隊在 ESS 上踩雷,最大的坑就是「佛系 ESS」。意思是,隨便拿個公版條件跑一跑,覺得有跑就好。
- 「沒事就好」的心態: 很多新人會覺得,ESS 只是走個流程,反正測試都過了。結果等到客戶抱怨來了才發現,當初 ESS 條件根本不夠嚴苛,沒有把該抓出來的問題抓出來。
- 怕 ESS 造成額外失效: 有些人會擔心,如果 ESS 太嚴苛,會不會反而讓原本沒問題的產品也壞掉?坦白講,這確實有可能,但這也代表你的產品設計或製程本身就體質不佳。寧願在廠內發現問題,也不要在客戶端「出包」。
- 沒有跟良率/DPMO 結合: ESS 不該只是單獨的篩選,它更應該是一個驗證製程穩健度的指標。如果你的 ESS 失效率突然飆高,那絕對是製程出了大問題,需要馬上回頭檢視。我曾經看過一個案子,ESS 失效率從原本的 100 DPM 突然跳到 600 DPM,結果追查發現是晶圓廠的一批化學研磨製程參數跑掉了,幸好 ESS 及早發現,不然損失就大了。
今天能做的一件事
重新檢視你產品的 ESS 條件,確保它夠「狠」!