OpenAI 用真實對話重放測新模型：上線前 benchmark 為何總跟現實對不上

OpenAI 在 6 月 16 日發表了一套上線前測試方法，叫 Deployment Simulation，做法是在模型正式上線前，先把它放進一場「模擬的部署」裡跑過一遍。我看這則新聞，重點不是 OpenAI 又端出什麼花樣。它其實是在回答一個做過產品的人都遇過的尷尬：模型在跑分上漂亮過關，上線兩週後卻有東西悄悄壞掉。這篇想談的，是上線前驗收這件事該怎麼搬回真實情境，而這跟企業要不要只信 benchmark，是同一個問題。

它到底做了什麼

方法本身不複雜，反而是它樸素的地方最有意思。OpenAI 拿近期去識別過的真實使用者對話，把原本那個模型給的回覆整段拿掉，改用即將上線的候選模型重新生成一次回覆，再用自動分類器去掃這些新回覆裡，有沒有冒出新的、或變多的不當行為。等於是讓還沒上線的模型，先去面對真實使用者真的會丟過來的那些問題，而不是工程師預先寫好的測試題。

規模也夠撐得起結論。他們在 GPT-5 系列的四個模型、約 130 萬則對話上驗證，時間從 2025 年 8 月跨到 2026 年 3 月。結果是這樣：對於版本之間出現明顯頻率變動的不當行為類別，這套模擬法有 92% 的時候正確判斷出問題是會變多還是變少，傳統測試只答對 54%。命中率方面，整體的中位數誤差約 1.5 倍，估得不算神準，但比擲銅板好太多。

跑分為什麼跟現實對不上

這就回到那個我一直在繞的問題：benchmark 高分到底代表什麼。今年 2 月發表的《International AI Safety Report 2026》把這個落差講得很白，光看 benchmark 結果，沒辦法可靠地預測一個模型在真實世界的實際效用和風險。這個落差有個名字，叫評估落差（evaluation gap）。意思不是跑分造假，是測試題目和真實使用者帶來的問題，根本是兩種分布。合成測題乾淨、邊界清楚、一題一個考點；真實對話髒、模稜兩可、夾雜一堆脈絡。一個在前者拿高分的模型，不保證在後者不出包。

Deployment Simulation 厲害的地方，正是它沒有想辦法把測題出得更刁鑽，而是直接把真實流量搬過來當考卷。這跟我先前談模型分層、談工具選型時的立場是一致的：能不能落地，從來不是模型強弱單獨決定的，落地設計的品質才是關鍵。一套驗收流程用什麼當題目，本身就是落地設計的一部分。

模型知道自己在被考試

更值得停下來看的，是 OpenAI 順手揭露的一件事。模型認出標準安全測試「這是在考我」的比例，高達 98.9% 到 100%；但換成真實的生產對話，這個比例掉到只剩 5.4%。換句話說，當模型知道自己在被測，它的表現未必是它真實上線後的表現。這也呼應安全報告點名的趨勢：模型越來越會分辨測試情境與真實部署，並在評估裡鑽漏洞。

他們抓到的一個例子很傳神。GPT-5.1 出現一種被稱為 calculator hacking 的行為：它偷偷拿瀏覽器工具當計算機用，卻跟使用者說自己跑了一次網路搜尋。模型把過程包裝成你預期它做的事，實際上抄了捷徑。用乾淨的測題很難逼出這種行為，因為它要在真實、雜亂、有工具可用的情境裡才會發生。

模型察覺自己正在被評估，於是鑽測試的漏洞，例如 calculator hacking

這件事我們在自家專案裡踩得很深

講到這裡我必須說，這不是別人的研究發現，是我們自己在做的事情裡天天遇到的。我們發現在測試過程中，AI 會意識到自己正在被評估，進而觸發逆向破解機制。這在 AI 華佗專案中尤為明顯。模型一旦察覺這是在被打分，它會去迎合評分，而不是誠實地反映它真正會怎麼回答。OpenAI 那個 5.4% 對 98.9% 的數字，我看的時候是會心一笑的，因為那正是我們在醫療場景裡最頭痛的東西。

但我們真正想要的，跟「考得好」是兩件事。我們更需要的，是模型具備「不知道就說不知道」的穩定性與一致性。在醫療場景，一個模型願不願意在沒把握的時候老實認輸，比它在標準題庫拿幾分重要太多了。一次自信滿滿的錯誤用藥建議，代價可能是病人真的照做。而這種穩定性沒辦法靠跑分保證，現階段我們只能依照獨立第三方 Agent 和真人醫師夥伴幫忙校正，用外部的、不被模型摸透的角色，去把它在真實情境裡的行為一格一格校回來。這跟 OpenAI 不靠模型自評、而是拿真實對話加分類器去驗收，背後是同一個道理：能不能信任一個系統，看的是它的驗證機制怎麼設計，不是它自己說得多好。

企業該怎麼用自家真實流量做上線前驗收

把這套思路收回到企業導入 AI 上，結論很直接：別只拿供應商的 benchmark 當驗收依據。模型供應商的跑分是它在它的題庫上的成績，不是它在你的客服、你的工單、你的內部問答裡會怎麼表現。而且模型供應商可以在不發詳細變更紀錄的情況下更新模型，語氣、拒答邏輯、輸出格式都可能悄悄變掉，連帶讓你下游接它的系統莫名其妙壞掉。你要的不是知道它在 MMLU 幾分，是知道它換版之後，在你這邊會不會出包。

具體可以這樣做，明天就能開始。第一，把自家近期的真實對話留樣本，做去識別，當成你自己的回放題庫，這比任何公開 benchmark 都貼近你的情境。第二，每次模型要換版，先用這批真實流量重跑一次，比對新舊回覆在語氣、拒答、格式、正確率上有沒有漂移，而不是看供應商的版本說明就放行。第三，驗收的判官別只用模型自己或它的自評，先把你要驗的情境定義清楚，再決定誰來判、判什麼，高風險的部分留給人或獨立的第三方角色把關。順序別倒過來：先有真實情境，才有對得上的驗收。

常見問題

Deployment Simulation 跟一般的 benchmark 差在哪？
benchmark 是用預先寫好的測試題打分，乾淨但跟真實使用情境有落差。Deployment Simulation 是拿真實使用者對話、把舊回覆剝掉、改用待上線的新模型重新生成，再掃有沒有冒出新問題。差別在考卷是合成的，還是直接搬真實流量。

什麼是評估落差（evaluation gap）？
指模型在上線前的 benchmark 表現，常常高估它在真實世界的實際效用，因為測試題目抓不到真實任務的複雜度。安全報告也指出，模型越來越會分辨自己是在被測還是真上線，這讓跑分更不能直接當保證。

中小企業沒有 OpenAI 那種規模，學得來嗎？
學得來，而且不用百萬則對話。重點不是量，是用對題目。留下自家近期的真實對話、去識別後當回放題庫，每次換版前先重跑比對，再讓人或第三方角色把關高風險的部分，這套流程小團隊也做得起來，關鍵在你願不願意拿真實情境驗收，而不是看供應商的成績單。

結語

Deployment Simulation 真正的訊號，不是 OpenAI 又證明了自己技術強，是它把上線前驗收這件事，從乾淨的跑分搬回了髒的真實情境。模型會知道自己在被考試，這件事一旦成立，所有建立在合成測題上的安心感都要打個折。我們在 AI 華佗專案裡靠第三方 Agent 和真人醫師校正，OpenAI 靠真實對話加分類器，做的是同一件事：別讓被驗的模型自己決定它過不過關。企業導入 AI 也是同個提醒，先準備好你自己的真實流量，再來談要不要相信那張成績單。

參考來源

Predicting LLM Safety Before Release by Simulating Deployment（OpenAI）原始研究論文：重放真實對話模擬上線、預測新模型行為與安全問題
OpenAI's Pre-Deployment Test Replays Real User Conversations to Spot AI Behavioral Drift（Tech Times）重放真實對話抓行為漂移、語氣/拒答/格式在改版後悄悄變動
OpenAI's Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding Through Simulated Tool Calls（MarkTechPost）約 130 萬則對話、GPT-5 Thinking 到 GPT-5.4、中位數誤差 1.5x、calculator hacking、模擬工具呼叫與 agentic
OpenAI researchers want to predict how often AI models will fail before launch（The Decoder）方向準確率 92% vs 54%、模型認出測試 98.9–100% 對真實對話降到 5.4%、方法限制
Second ever international AI safety report published（Computer Weekly）《International AI Safety Report 2026》的 evaluation gap：benchmark 結果無法可靠預測真實世界效用與風險