[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-mathnet-benchmark-math-reasoning-retrieval-zh":3,"tags-mathnet-benchmark-math-reasoning-retrieval-zh":31,"related-lang-mathnet-benchmark-math-reasoning-retrieval-zh":32,"related-posts-mathnet-benchmark-math-reasoning-retrieval-zh":36,"series-research-ac5a1a8a-b0f6-46f6-85f5-47f01b5f6c51":73},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":19,"translated_content":10,"views":20,"is_premium":21,"created_at":22,"updated_at":22,"cover_image":11,"published_at":23,"rewrite_status":24,"rewrite_error":10,"rewritten_from_id":25,"slug":26,"category":27,"related_article_id":28,"status":29,"google_indexed_at":30,"x_posted_at":10},"ac5a1a8a-b0f6-46f6-85f5-47f01b5f6c51","MathNet 把數學推理和檢索一起測","\u003Cp>大型語言模型會寫字，但數學推理還是常見硬傷。很多 benchmark 只看「會不會解題」，卻不管系統能不能找出相關題目、能不能把檢索結果用進生成流程。這篇 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.18584\">MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval\u003C\u002Fa>，就是想把這三件事放進同一套評測裡。\u003C\u002Fp>\u003Cp>它不是單純做大題庫而已。MathNet 把奧林匹亞等級的數學題，和一個專門測「數學檢索」的資料集綁在一起，讓模型不只要解題，還要能找出數學上等價或結構相似的題目。對做教育工具、技術搜尋、或 RAG 系統的人來說，這個方向很實際。\u003C\u002Fp>\u003Cp>因為真實世界裡，數學題常常不是原封不動出現。它可能被改寫、翻譯、換一種敘述方式，甚至只保留關鍵條件。這時候，單看文字相似度的檢索不夠用；如果檢索層抓不到對的題目，後面的生成模型再強也可能被拖累。\u003C\u002Fp>\u003Ch2>MathNet 想解的痛點是什麼\u003C\u002Fh2>\u003Cp>這篇論文先指出一個老問題：現有數學 benchmark 往往太小、太偏單一語言，或只測很窄的任務。這會讓評測結果看起來很漂亮，但不一定能反映真實應用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776751441331-oooq.png\" alt=\"MathNet 把數學推理和檢索一起測\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>更關鍵的是，多數 benchmark 只測「解題」。但在很多實際系統裡，先找相似題、找等價表述、找支撐例子，再把這些內容交給生成模型，才是完整流程。也就是說，數學系統不只是 reasoning，還有 retrieval。MathNet 的設計，就是想把這個缺口補起來。\u003C\u002Fp>\u003Cp>所以它關心的不是單點能力，而是整條鏈：模型能不能做數學推理、檢索模型能不能找出真正相關的題目、以及檢索到的內容能不能幫助下游生成。\u003C\u002Fp>\u003Ch2>資料集到底長什麼樣\u003C\u002Fh2>\u003Cp>MathNet 被描述成一個高品質、大規模、多模態、多語言的奧林匹亞數學資料集，裡面有解答。來源涵蓋 47 個國家、17 種語言，時間跨度是 20 年，總共有 30,676 題由專家整理的題目。\u003C\u002Fp>\u003Cp>這個規模的意義不只是「很多題」。它代表題目寫法、符號習慣、語言表達和競賽風格都更分散。對做跨語言搜尋、全球化教育產品，或多語系數學助教的人來說，這種差異很重要。因為數學題不是只有英文版本，也不是每個地區都用同一種敘事方式。\u003C\u002Fp>\u003Cp>除了解題資料，作者還另外做了一個檢索 benchmark。這部分不是靠關鍵字湊對，而是由專家人工整理出「數學上等價」和「結構上相似」的題目配對。這一點很重要，因為它測的是模型有沒有看懂數學關係，而不是只會抓表面字詞重疊。\u003C\u002Fp>\u003Cul>\u003Cli>解題評測：看模型能不能做奧賽等級數學題。\u003C\u002Fli>\u003Cli>數學檢索評測：看 embedding 模型能不能找出相似題。\u003C\u002Fli>\u003Cli>RAG 評測：看檢索結果有沒有真的幫到生成。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>方法怎麼運作，白話講\u003C\u002Fh2>\u003Cp>你可以把 MathNet 想成兩個 benchmark 合在一起。第一個是大題庫，用來評估模型的數學推理能力。第二個是檢索題庫，用來評估向量檢索系統和 retrieval pipeline。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776751435530-ndds.png\" alt=\"MathNet 把數學推理和檢索一起測\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>比較新的地方在檢索設計。一般檢索常看字面相近不相近，但 MathNet 的題目配對是由專家確認，重點是「數學上是不是同一類問題」。這會逼系統去理解問題結構，而不是只靠詞彙重疊。\u003C\u002Fp>\u003Cp>在 retrieval-augme\u003Ca href=\"\u002Fnews\u002Fanthropic-800b-valuation-funding-zh\">nt\u003C\u002Fa>ed generation 的流程裡，做法也很直白：先找一題相關題目，再把檢索到的內容丟給生成模型，最後看答案有沒有變好。這就是很多團隊在做的事，只是 MathNet 把它變成可衡量的 benchmark。\u003C\u002Fp>\u003Cp>論文摘要特別強調一件事：檢索品質很關鍵。不是只要有 retrieval 就會加分；如果找回來的題目不夠準，生成端不一定受益，甚至可能被雜訊干擾。\u003C\u002Fp>\u003Ch2>這篇論文證明了什麼\u003C\u002Fh2>\u003Cp>摘要有幾個直接結果。第一，這個 benchmark 對強模型來說仍然不簡單。Gemini-3.1-\u003Ca href=\"\u002Fnews\u002Fprompt-engineering-becoming-infrastructure-zh\">Pro\u003C\u002Fa> 得到 78.4%，GPT-5 是 69.3%。這代表 MathNet 不是那種隨便就滿分的題庫，還有能力把不同強模型拉開。\u003C\u002Fp>\u003Cp>第二，embedding 模型在找數學等價題這件事上表現不理想。這對做向量搜尋的人是個提醒：一般語意嵌入在自然語言上可能夠用，但一碰到數學結構，表面語意和真正等價不一定是同一件事。\u003C\u002Fp>\u003Cp>第三，RAG 的表現很吃檢索品質。作者指出，DeepSeek-V3.2-Speciale 在這個 benchmark 上最高，且相較基準有最高可達 12% 的提升。這個數字的重點不是某個模型神，而是說檢索真的有機會幫忙，但前提是檢索得夠準。\u003C\u002Fp>\u003Cp>不過，摘要也有明顯限制。它沒有公開完整 benchmark 細節，所以看不到每個語言、每種題型、或每種任務的完整分數分布。換句話說，現在能確定的是整體方向和幾個代表性結果，但還不能從摘要直接判斷模型到底卡在哪些子任務上。\u003C\u002Fp>\u003Ch2>對開發者有什麼實際影響\u003C\u002Fh2>\u003Cp>如果你在做數學助教、作業輔助工具、STEM 搜尋引擎，或任何跟 technical content 有關的 RAG 系統，MathNet 很值得注意。因為它把三個常被分開看的能力，放到同一個評測框架裡：推理、檢索、以及檢索對生成的實際幫助。\u003C\u002Fp>\u003Cp>這對產品設計很有用。很多系統在 demo 階段看起來能答，但一旦遇到改寫題、翻譯題，或競賽風格比較重的題目，效果就掉下來。MathNet 的多語言、多國家、長時間跨度資料，正是為了讓這種落差更容易被看見。\u003C\u002Fp>\u003Cp>對做 embedding 或向量資料庫的人來說，這篇論文也很直接。它在提醒你：數學相似度不是一般句子相似度。若你的系統要找的是「等價問題」，那評測方式就不能只看 cosine similarity 的表面結果。\u003C\u002Fp>\u003Cp>下面是這篇摘要對實作最有感的幾個訊號：\u003C\u002Fp>\u003Cul>\u003Cli>數學檢索不能只靠一般語意向量。\u003C\u002Fli>\u003Cli>RAG 是否有效，很看你找回來的題目準不準。\u003C\u002Fli>\u003Cli>多語言場景會放大模型在表達差異上的弱點。\u003C\u002Fli>\u003Cli>強推理模型不代表在數學檢索上也強。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>還有哪些限制和未解問題\u003C\u002Fh2>\u003Cp>這篇摘要雖然把方向講得很清楚，但也留下不少空白。首先，它沒有提供完整 benchmark breakdown，所以不知道不同語言之間差多少，也不知道哪些題型最難。\u003C\u002Fp>\u003Cp>其次，摘要沒有說明它怎麼處理長篇推導、圖形題，或不同解法風格。這些在真實數學任務裡都很常見，但從目前公開的摘要內容，還看不出 benchmark 對這些情境覆蓋多深。\u003C\u002Fp>\u003Cp>另外，摘要也沒有把「語言差異」和「數學難度」拆開講清楚。也就是說，模型分數低，到底是因為看不懂語言，還是因為數學本身太難，現在還不能從這份摘要直接下結論。\u003C\u002Fp>\u003Cp>但即使有這些限制，MathNet 仍然是個很實用的方向。它把數學系統該測的東西往前推了一步，不再只問「會不會解」，而是進一步問「會不會找、找得準不準、找到了有沒有真的幫上忙」。\u003C\u002Fp>\u003Cp>對台灣開發者來說，這種 benchmark 的價值很直接：如果你想做下一代數學助理或技術搜尋工具，MathNet 提供的是更接近產品現場的評測方式，而不是只看單一準確率的漂亮分數。\u003C\u002Fp>\u003Cp>整體來看，MathNet 比較像一個把數學 \u003Ca href=\"\u002Fnews\u002Fwhy-prompt-standards-matter-for-ai-work-zh\">AI\u003C\u002Fa> 評測往實戰拉近的工具箱。它把全球奧賽題、專家配對的相似題、以及 retrieval-augmented 的流程綁在一起，讓研究者和工程團隊更容易看見系統真正的短板。\u003C\u002Fp>","MathNet 用 30,676 題、47 國、17 語言的奧賽數學題，同時測推理、相似題檢索與 RAG 效果。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.18584",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776751441331-oooq.png",[13,14,15,16,17,18],"數學推理","檢索","RAG","多語言","向量搜尋","奧林匹亞數學","zh",0,false,"2026-04-21T06:03:38.63837+00:00","2026-04-21T06:03:38.605+00:00","done","93a95bc9-14b0-48e5-a6ac-d561f4b64acf","mathnet-benchmark-math-reasoning-retrieval-zh","research","2ff3b7ca-c656-4814-9057-0457055b9263","published","2026-04-21T09:00:08.485+00:00",[],{"id":28,"slug":33,"title":34,"language":35},"mathnet-benchmark-math-reasoning-retrieval-en","MathNet Benchmarks Math Reasoning and Retrieval","en",[37,43,49,55,61,67],{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":27},"7ec4baa4-f0af-441e-a97d-56f81a2ca854","avise-ai-security-evaluation-framework-zh","AVISE 模組化測 AI 安全漏洞","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924771424-kztu.png","2026-04-23T06:12:30.770582+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":27},"b418bc8d-86c6-44d6-93f0-e26473db9649","parallel-sft-code-rl-cross-language-transfer-zh","Parallel-SFT 讓 code RL 更會跨語言","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924588963-c6d5.png","2026-04-23T06:09:32.299476+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":27},"0274c95d-bf59-405b-a4fd-425f4bb39368","speechparaling-bench-paralinguistic-speech-generation-zh","SpeechParaling-Bench盯住語氣細節","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776924234553-lme6.png","2026-04-23T06:03:38.74229+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":27},"947e3be0-2b4b-4719-90d1-ddd1ac80f18a","safe-continual-rl-changing-environments-zh","安全持續學習還沒解題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776838196623-anqk.png","2026-04-22T06:09:32.609993+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":27},"3823f95c-b999-49c7-8ebb-6533799afe82","random-neural-nets-fluctuations-phase-transitions-zh","隨機神經網路的三態漲落相變","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776838016911-ba0a.png","2026-04-22T06:06:36.386094+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":27},"1b8be06a-85ea-4cd1-a3c7-ffccdc3eefd5","edge-of-stability-generalization-zh","邊界不穩定為何反而更會泛化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776837839747-ism8.png","2026-04-22T06:03:36.116147+00:00",[74,79,84,89,94,99,104,109,114,119],{"id":75,"slug":76,"title":77,"created_at":78},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]