那天管制圖突然閃紅燈,老闆的奪命連環叩就來了
前幾天產線突然殺出一個詭異的警報,管制圖的點直接衝出規格線,整個圖表紅通通一片。你想嘛,我接到電話的時候都還沒到公司,直接被老闆「奪命連環叩」轟炸,問說是不是產線又出包了?是不是良率要掉下去了?一路上都在想,媽的,該不會又要加班到半夜了吧?結果咧,我衝到現場一看,數據根本沒什麼異常,就是那個點剛好落在管制界限外一點點,但製程參數根本沒動。後來花了一整天查,最後才發現,根本沒事。這就是我今天想跟你聊的,管制圖的「假警報」,也就是所謂的 α 風險。
問題出在哪?說穿了,就是「寧可錯殺一百,也不放過一個」
你可能會想,管制圖不就是幫我們抓異常的嗎?有警報不就代表有問題?沒錯,理論上是這樣。但你想想看,我們畫管制圖的目的,是為了分辨「正常變異」跟「異常變異」。正常變異就是那些隨機的、無法避免的雜訊,管制圖通常會有上下限,如果點跑到外面,理論上就是異常。但說實話,這條線是我們自己設定的,當你把管制界限設得太窄,就像你把警報器的靈敏度調得太高一樣,一點點風吹草動它就響,結果就是一堆「狼來了」的假警報。
這些假警報,我們在統計學上就叫它「型一錯誤」或是 α 風險。白話一點講,就是你的管制圖「誤判」了。製程明明沒問題,但管制圖卻響了警報,讓你浪費時間去查根本不存在的問題。以我們業界常用的 ±3 倍標準差作為管制界限來說,單點超出界限的機率大概是 0.27%。聽起來很低對不對?但如果你的產線一天要跑幾百批貨,每批有幾十個量測點,累積起來,你猜猜會有多常遇到這種假警報?
實際上怎麼做?你可以自己算算看
那麼,我們怎麼判斷這是真警報還是假警報?最直接的方法,就是回去檢視你的管制界限。管制界限通常是根據歷史數據去算的,比如說,你用過去 30 批的資料算出一個平均值和標準差,然後設定 ±3 倍標準差作為管制界限。
但重點來了,管制圖的設計原則,就是讓你「在製程穩定時,讓假警報的機率最小化」。如果你的管制圖常常在響警報,但你每次去查都發現沒問題,那你就該重新檢討你的管制界限了。
舉個例,如果你的製程量測點,它的管制圖平均值是 100,標準差是 2。一般我們設的管制界限就是 100 ± 3*2,也就是 94 到 106。如果今天測到一個點是 106.1,它就超出界限了。這時候你就要問自己,這個 106.1 真的代表製程出問題了嗎?還是只是正常的隨機波動,剛好跑到了尾巴?
換句話說,當你看到警報時,不要急著跳起來,先觀察一下。是真的有連續的趨勢往外跑?還是只有一個孤立的點?如果只是單點,那 α 風險的可能性就很高。
最常見的坑:看到紅燈就想「調高」管制界限
我見過最常見的坑,就是有些新來的工程師,看到管制圖一直響警報,每次去查都沒事,結果一氣之下,直接把管制界限調寬,從 ±3 倍標準差調到 ±3.5 倍甚至 ±4 倍。你以為這樣就沒事了?表面上假警報是少了,但你同時也把「真警報」給忽略掉了啊!
這就像你把家裡的防火警報器靈敏度調到最低,結果真的失火了,警報器也沒響,那才是真正的災難!你調寬管制界限的同時,其實是增加了「型二錯誤」的風險,也就是 β 風險,它代表的是製程真的出問題了,但管制圖卻沒響警報。到時候良率雪崩式下滑,老闆可能就不是奪命連環叩,而是直接請你回家吃自己了。所以,管制界限不是你想調就調的,它背後是嚴謹的統計學依據。
今天能做的一件事
重新檢視你手邊最常響警報的管制圖,看看近一個月有多少次假警報,然後思考:這些假警報,真的值得我浪費時間去追查嗎?