[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-llms-stumble-counterintuitive-probability-zh":3,"article-related-llms-stumble-counterintuitive-probability-zh":30,"series-research-9f629b51-c1ad-4a83-beef-40059da1ab54":81},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"9f629b51-c1ad-4a83-beef-40059da1ab54","llms-stumble-counterintuitive-probability-zh","LLM 在反直覺機率題翻車","\u003Cp data-speakable=\"summary\">這篇研究\u003Ca href=\"\u002Fnews\u002Fportsmouth-ai-buildout-energy-infrastructure-zh\">證明\u003C\u002Fa>，\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 在標準離散機率題表現很好，但一碰到反直覺或改寫題型就容易失準。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：標準題平均準確率 0.96；反直覺題降至 0.59\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：同題型做抗直覺測試\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文在測一件很實際的事：LLM 到底是真的會算機率，還是只是在熟悉題型上看起來很會。作者把標準題和反直覺題分開測，結果顯示，模型在教科書式問題上很強，但只要題目換個說法、塞進誤導線索，表現就會掉下來。\u003C\u002Fp>\u003Cp>對做助理、教學、風險解釋或決策支援的人來說，這不是小問題。因為真實世界的使用者不會永遠用最乾淨、最標準的方式提問。只要模型對措辭很敏感，它就可能在看似簡單的機率推理上失手。\u003C\u002Fp>\u003Ch2>這篇在解什麼痛點\u003C\u002Fh2>\u003Cp>這篇研究想處理的，是 LLM 在「看起來懂」和「真的懂」之間的落差。作者關心的不是模型能不能解高等數學，而是它在離散機率這種需要正確理解不確定性的題目上，是否真的有穩定推理能力。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780900377752-3uk6.png\" alt=\"LLM 在反直覺機率題翻車\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要裡的核心想法很直接：就算模型在一般數學 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 上成績不錯，也不代表它能在機率題上可靠作答。尤其當題目不是標準\u003Ca href=\"\u002Fnews\u002Fabra-turns-tokenization-into-crypto-banking-play-zh\">模板\u003C\u002Fa>，而是混入干擾資訊、改寫成不常見形式，模型可能會走捷徑，而不是照機率結構推理。\u003C\u002Fp>\u003Cp>這個切法很重要，因為真實應用場景通常不是整齊的考卷。使用者會改寫問題、漏掉條件、加上多餘描述，甚至不小心提供錯誤暗示。若系統只在 canonical 題型上穩，實務上就不夠可靠。\u003C\u002Fp>\u003Ch2>方法怎麼做\u003C\u002Fh2>\u003Cp>作者做的是一個受控的離散機率 benchmark。摘要明確提到，他們建立了兩組資料：一組是標準題，另一組是反直覺題。前者比較接近教科書常見形式，後者則刻意設計成容易誘發 heuristic reasoning，也就是讓模型想走表面捷徑。\u003C\u002Fp>\u003Cp>研究一共評估了八個 state-of-the-art 模型，並且每個模型都測了有沒有 Chain-of-Thought prompting 的版本。這讓研究不只是看模型「能不能答對」，而是看它在被要求逐步推理時，是否真的能更穩定地處理機率問題。\u003C\u002Fp>\u003Cp>摘要也測了兩個很貼近部署場景的 robustness 問題。第一個是 \u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> bias：同一題如果改成 disguised variant，也就是外觀不同但邏輯相同的版本，模型表現會不會變。第二個是 prompt contamination：在提示詞裡加入誤導建議，答案品質會不會被帶歪。\u003C\u002Fp>\u003Cp>換句話說，這篇不是單純比誰答對最多題，而是在看模型遇到不同包裝方式時，推理是否還穩定。這種測法比只看單一題型更接近產品環境。\u003C\u002Fp>\u003Ch2>研究實際證明了什麼\u003C\u002Fh2>\u003Cp>最明顯的結果，是標準題和反直覺題之間有很大的落差。摘要給出的平均數字很清楚：標準題平均準確率是 0.96，但反直覺題只有 0.59。也就是說，模型在熟悉題型上幾乎像是做對了，但一旦題目不那麼直觀，表現就明顯崩下來。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780900382277-eyiw.png\" alt=\"LLM 在反直覺機率題翻車\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要還指出，當 canonical formulations 被改成 disguised variants 時，表現會下降超過 20%。這代表影響模型的，不只是數學本身，還包括題目的外觀與措辭。對一個應該理解問題結構的系統來說，這是很\u003Ca href=\"\u002Fnews\u002Fopen-source-dev-tools-2026-zh\">值得\u003C\u002Fa>警惕的訊號。\u003C\u002Fp>\u003Cp>更糟的是，誤導性的提示會讓表現最多下降 34%，而且沒有任何一個模型能完全免疫。這表示 prompt 裡多加一句看似合理的暗示，都可能改變模型對機率問題的判斷。\u003C\u002Fp>\u003Cp>不過，摘要也有明確限制：它沒有提供每個模型的細部表格，也沒有公開資料集大小或信賴區間。換句話說，我們知道方向很清楚，但只靠摘要還不能判斷統計強度，也不能精細比較不同模型家族誰最穩。\u003C\u002Fp>\u003Cul>\u003Cli>八個 state-of-the-art 模型都被測試\u003C\u002Fli>\u003Cli>每個模型都比較了有無 Chain-of-Thought prompting\u003C\u002Fli>\u003Cli>資料集分成標準題與反直覺題兩類\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這對開發者代表什麼\u003C\u002Fh2>\u003Cp>如果你的產品會碰到不確定性，這篇就是一個提醒：不要把 LLM 的機率能力想得太樂觀。它可能在標準題上看起來很準，但遇到稍微變形的題目，就不一定還能維持同樣水準。\u003C\u002Fp>\u003Cp>這對產品設計很直接。像是解釋機率、處理風險分析、教學輔助，或任何需要比較 odds 的功能，都不能只靠模型原始輸出。你可能需要更強的驗證流程、題目正規化，甚至外掛一層 deterministic 的推理或檢查器。\u003C\u002Fp>\u003Cp>token bias 的結果也很值得 eval 團隊注意。如果同一個問題換個寫法，分數就變動很大，那單一 benchmark 句型根本不足以證明可靠性。你需要測 canonical 版本，也要測 disguised 版本，才知道模型是不是在理解結構，而不是背表面模式。\u003C\u002Fp>\u003Cp>prompt contamination 的結果則很像真實使用情境。使用者常常會在 prompt 裡塞入假設、暗示，或半成形的推理。這篇研究顯示，這些內容可能直接把模型帶偏。對開發者來說，prompt hygiene 不是美觀問題，而是正確性問題。\u003C\u002Fp>\u003Ch2>實務上怎麼解讀\u003C\u002Fh2>\u003Cp>這篇論文不是在說 LLM 完全不能做機率題。相反地，摘要顯示它們在標準題上表現非常高。真正的問題是穩定性。當題目變得反直覺、被改寫，或混入誤導線索時，模型就沒有那麼可靠。\u003C\u002Fp>\u003Cp>所以，這篇研究也在提醒大家：不同類型的 reasoning benchmark 不能互相替代。某個模型在其他數學任務表現好，不代表它在機率推理上也一樣穩，尤其是當答案需要抵抗直覺捷徑時。\u003C\u002Fp>\u003Cp>如果你是工程端，最保守也最實用的做法很簡單：把 LLM 當成在機率邊界案例上可能脆弱的系統。只要輸出會影響決策，就應該再用計算器、規則引擎，或領域內的檢查邏輯驗證一次，而不是直接相信模型已經掌握了機率規則。\u003C\u002Fp>\u003Cp>如果你是做評測的人，這篇也提供了一個更好的測法：同時放入標準與改寫版本，再加上誤導提示，觀察性能是否穩定。這種測試方式更接近真實用戶怎麼折磨系統，也更能看出模型到底有沒有真的懂。\u003C\u002Fp>\u003Cp>總結來看，這篇研究的重點不是「LLM 會不會算機率」，而是「LLM 在什麼條件下還算得穩」。摘要給出的答案很明確：在標準題上可以很強，但在反直覺、改寫、或被誤導的情境下，可靠度還不夠。\u003C\u002Fp>","這篇研究發現，LLM 在標準機率題表現很高，但遇到反直覺、改寫或帶誤導提示的題目時，準確率會明顯下滑。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.07515",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780900377752-3uk6.png","research","zh","c89012a2-8d2a-4abc-8325-2a6249828718",[17,18,19,20,21],"LLM","probability reasoning","Chain-of-Thought","benchmark","robustness",[23,24,25],"標準機率題上，LLM 可以表現很高，但不代表穩定。","題目改寫與誤導提示會明顯拉低表現。","做產品或評測時，不能只看 canonical 題型。",3,"2026-06-08T06:32:28.84056+00:00","2026-06-08T06:32:28.829+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":40,"relatedPosts":44},[32,33,35,36,38],{"name":21,"slug":21},{"name":18,"slug":34},"probability-reasoning",{"name":20,"slug":20},{"name":17,"slug":37},"llm",{"name":39,"slug":39},"chain-of-thought",{"id":15,"slug":41,"title":42,"language":43},"llms-stumble-counterintuitive-probability-en","LLMs stumble on counterintuitive probability","en",[45,51,57,63,69,75],{"id":46,"slug":47,"title":48,"cover_image":49,"image_url":49,"created_at":50,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":13},"0e9f2d34-1873-4c6f-bdec-5d89fbaab037","memdreamer-long-video-understanding-memory-retrieval-zh","MemDreamer 用記憶拆解長影片","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780902187207-ilt0.png","2026-06-08T07:02:32.374349+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":13},"fdc06a5d-6b96-463d-bb9e-e7a0c1194ff5","agentopia-10-year-agent-society-simulation-zh","Agentopia：把代理社會拉長到10年","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780901284189-2q5j.png","2026-06-08T06:47:31.817211+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":13},"174a1d04-6330-4ed1-98d3-32a6199d2108","bento-webassembly-memory-compartments-zh","Bento 把 Wasm 記憶體切成隔間","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780811288729-y8qc.png","2026-06-07T05:47:45.523833+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":13},"33d21f7f-481d-43d9-9a1c-a2e5badcd84b","bis-stablecoin-usable-buffers-regulation-zh","BIS 把穩定幣規則變成可用緩衝","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780737502594-jk2b.png","2026-06-06T09:17:56.366473+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":13},"a4cb421e-464e-4933-9e1c-6371d3cd1503","prevent-catastrophic-forgetting-llm-fine-tuning-zh","如何防止 LLM 微調災難性遺忘","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780730281470-8i97.png","2026-06-06T07:17:28.426709+00:00",[82,87,92,97,102,107,112,117,122,127],{"id":83,"slug":84,"title":85,"created_at":86},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]