LLM 在反直覺機率題翻車

OraCore Editors

返回首頁

[RSCH] 2026年6月8日5 分鐘閱讀OraCore 編輯部

LLM 在反直覺機率題翻車

這篇研究發現，LLM 在標準機率題表現很高，但遇到反直覺、改寫或帶誤導提示的題目時，準確率會明顯下滑。

benchmark LLM chain-of-thought

分享 LinkedIn

這篇研究證明，LLM 在標準離散機率題表現很好，但一碰到反直覺或改寫題型就容易失準。

研究機構：arXiv 摘要未明確標註
核心數據：標準題平均準確率 0.96；反直覺題降至 0.59
突破點：同題型做抗直覺測試

這篇論文在測一件很實際的事：LLM 到底是真的會算機率，還是只是在熟悉題型上看起來很會。作者把標準題和反直覺題分開測，結果顯示，模型在教科書式問題上很強，但只要題目換個說法、塞進誤導線索，表現就會掉下來。

對做助理、教學、風險解釋或決策支援的人來說，這不是小問題。因為真實世界的使用者不會永遠用最乾淨、最標準的方式提問。只要模型對措辭很敏感，它就可能在看似簡單的機率推理上失手。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這篇研究想處理的，是 LLM 在「看起來懂」和「真的懂」之間的落差。作者關心的不是模型能不能解高等數學，而是它在離散機率這種需要正確理解不確定性的題目上，是否真的有穩定推理能力。

摘要裡的核心想法很直接：就算模型在一般數學 benchmark 上成績不錯，也不代表它能在機率題上可靠作答。尤其當題目不是標準模板，而是混入干擾資訊、改寫成不常見形式，模型可能會走捷徑，而不是照機率結構推理。

這個切法很重要，因為真實應用場景通常不是整齊的考卷。使用者會改寫問題、漏掉條件、加上多餘描述，甚至不小心提供錯誤暗示。若系統只在 canonical 題型上穩，實務上就不夠可靠。

方法怎麼做

作者做的是一個受控的離散機率 benchmark。摘要明確提到，他們建立了兩組資料：一組是標準題，另一組是反直覺題。前者比較接近教科書常見形式，後者則刻意設計成容易誘發 heuristic reasoning，也就是讓模型想走表面捷徑。

研究一共評估了八個 state-of-the-art 模型，並且每個模型都測了有沒有 Chain-of-Thought prompting 的版本。這讓研究不只是看模型「能不能答對」，而是看它在被要求逐步推理時，是否真的能更穩定地處理機率問題。

摘要也測了兩個很貼近部署場景的 robustness 問題。第一個是 token bias：同一題如果改成 disguised variant，也就是外觀不同但邏輯相同的版本，模型表現會不會變。第二個是 prompt contamination：在提示詞裡加入誤導建議，答案品質會不會被帶歪。

換句話說，這篇不是單純比誰答對最多題，而是在看模型遇到不同包裝方式時，推理是否還穩定。這種測法比只看單一題型更接近產品環境。

研究實際證明了什麼

最明顯的結果，是標準題和反直覺題之間有很大的落差。摘要給出的平均數字很清楚：標準題平均準確率是 0.96，但反直覺題只有 0.59。也就是說，模型在熟悉題型上幾乎像是做對了，但一旦題目不那麼直觀，表現就明顯崩下來。

摘要還指出，當 canonical formulations 被改成 disguised variants 時，表現會下降超過 20%。這代表影響模型的，不只是數學本身，還包括題目的外觀與措辭。對一個應該理解問題結構的系統來說，這是很值得警惕的訊號。

更糟的是，誤導性的提示會讓表現最多下降 34%，而且沒有任何一個模型能完全免疫。這表示 prompt 裡多加一句看似合理的暗示，都可能改變模型對機率問題的判斷。

不過，摘要也有明確限制：它沒有提供每個模型的細部表格，也沒有公開資料集大小或信賴區間。換句話說，我們知道方向很清楚，但只靠摘要還不能判斷統計強度，也不能精細比較不同模型家族誰最穩。

八個 state-of-the-art 模型都被測試
每個模型都比較了有無 Chain-of-Thought prompting
資料集分成標準題與反直覺題兩類

這對開發者代表什麼

如果你的產品會碰到不確定性，這篇就是一個提醒：不要把 LLM 的機率能力想得太樂觀。它可能在標準題上看起來很準，但遇到稍微變形的題目，就不一定還能維持同樣水準。

這對產品設計很直接。像是解釋機率、處理風險分析、教學輔助，或任何需要比較 odds 的功能，都不能只靠模型原始輸出。你可能需要更強的驗證流程、題目正規化，甚至外掛一層 deterministic 的推理或檢查器。

token bias 的結果也很值得 eval 團隊注意。如果同一個問題換個寫法，分數就變動很大，那單一 benchmark 句型根本不足以證明可靠性。你需要測 canonical 版本，也要測 disguised 版本，才知道模型是不是在理解結構，而不是背表面模式。

prompt contamination 的結果則很像真實使用情境。使用者常常會在 prompt 裡塞入假設、暗示，或半成形的推理。這篇研究顯示，這些內容可能直接把模型帶偏。對開發者來說，prompt hygiene 不是美觀問題，而是正確性問題。

實務上怎麼解讀

這篇論文不是在說 LLM 完全不能做機率題。相反地，摘要顯示它們在標準題上表現非常高。真正的問題是穩定性。當題目變得反直覺、被改寫，或混入誤導線索時，模型就沒有那麼可靠。

所以，這篇研究也在提醒大家：不同類型的 reasoning benchmark 不能互相替代。某個模型在其他數學任務表現好，不代表它在機率推理上也一樣穩，尤其是當答案需要抵抗直覺捷徑時。

如果你是工程端，最保守也最實用的做法很簡單：把 LLM 當成在機率邊界案例上可能脆弱的系統。只要輸出會影響決策，就應該再用計算器、規則引擎，或領域內的檢查邏輯驗證一次，而不是直接相信模型已經掌握了機率規則。

如果你是做評測的人，這篇也提供了一個更好的測法：同時放入標準與改寫版本，再加上誤導提示，觀察性能是否穩定。這種測試方式更接近真實用戶怎麼折磨系統，也更能看出模型到底有沒有真的懂。

總結來看，這篇研究的重點不是「LLM 會不會算機率」，而是「LLM 在什麼條件下還算得穩」。摘要給出的答案很明確：在標準題上可以很強，但在反直覺、改寫、或被誤導的情境下，可靠度還不夠。

// 相關文章

LLM 在反直覺機率題翻車

這篇在解什麼痛點

訂閱 AI 趨勢週報

方法怎麼做

研究實際證明了什麼

這對開發者代表什麼

實務上怎麼解讀

Prompt 工程把 codegen 變成可重複流程

2026 Prompt Engineering 快速手冊

35 個 ChatGPT 研究提示詞實作指南

GraphVid 用互動圖控影片生成

可擴張 Flow Map：生成尺寸跟著長

VLM-IE3D替VLM補上3D幾何