MathNet 把數學推理和檢索一起測

OraCore Editors

Back to home

Research/April 21, 2026·6 min read·OraCore Editors

MathNet 把數學推理和檢索一起測

MathNet 用 30,676 題、47 國、17 語言的奧賽數學題，同時測推理、相似題檢索與 RAG 效果。

RAG

Share LinkedIn

大型語言模型會寫字，但數學推理還是常見硬傷。很多 benchmark 只看「會不會解題」，卻不管系統能不能找出相關題目、能不能把檢索結果用進生成流程。這篇 MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval，就是想把這三件事放進同一套評測裡。

它不是單純做大題庫而已。MathNet 把奧林匹亞等級的數學題，和一個專門測「數學檢索」的資料集綁在一起，讓模型不只要解題，還要能找出數學上等價或結構相似的題目。對做教育工具、技術搜尋、或 RAG 系統的人來說，這個方向很實際。

因為真實世界裡，數學題常常不是原封不動出現。它可能被改寫、翻譯、換一種敘述方式，甚至只保留關鍵條件。這時候，單看文字相似度的檢索不夠用；如果檢索層抓不到對的題目，後面的生成模型再強也可能被拖累。

MathNet 想解的痛點是什麼

這篇論文先指出一個老問題：現有數學 benchmark 往往太小、太偏單一語言，或只測很窄的任務。這會讓評測結果看起來很漂亮，但不一定能反映真實應用。

更關鍵的是，多數 benchmark 只測「解題」。但在很多實際系統裡，先找相似題、找等價表述、找支撐例子，再把這些內容交給生成模型，才是完整流程。也就是說，數學系統不只是 reasoning，還有 retrieval。MathNet 的設計，就是想把這個缺口補起來。

所以它關心的不是單點能力，而是整條鏈：模型能不能做數學推理、檢索模型能不能找出真正相關的題目、以及檢索到的內容能不能幫助下游生成。

資料集到底長什麼樣

MathNet 被描述成一個高品質、大規模、多模態、多語言的奧林匹亞數學資料集，裡面有解答。來源涵蓋 47 個國家、17 種語言，時間跨度是 20 年，總共有 30,676 題由專家整理的題目。

這個規模的意義不只是「很多題」。它代表題目寫法、符號習慣、語言表達和競賽風格都更分散。對做跨語言搜尋、全球化教育產品，或多語系數學助教的人來說，這種差異很重要。因為數學題不是只有英文版本，也不是每個地區都用同一種敘事方式。

除了解題資料，作者還另外做了一個檢索 benchmark。這部分不是靠關鍵字湊對，而是由專家人工整理出「數學上等價」和「結構上相似」的題目配對。這一點很重要，因為它測的是模型有沒有看懂數學關係，而不是只會抓表面字詞重疊。

解題評測：看模型能不能做奧賽等級數學題。
數學檢索評測：看 embedding 模型能不能找出相似題。
RAG 評測：看檢索結果有沒有真的幫到生成。

方法怎麼運作，白話講

你可以把 MathNet 想成兩個 benchmark 合在一起。第一個是大題庫，用來評估模型的數學推理能力。第二個是檢索題庫，用來評估向量檢索系統和 retrieval pipeline。

比較新的地方在檢索設計。一般檢索常看字面相近不相近，但 MathNet 的題目配對是由專家確認，重點是「數學上是不是同一類問題」。這會逼系統去理解問題結構，而不是只靠詞彙重疊。

在 retrieval-augmented generation 的流程裡，做法也很直白：先找一題相關題目，再把檢索到的內容丟給生成模型，最後看答案有沒有變好。這就是很多團隊在做的事，只是 MathNet 把它變成可衡量的 benchmark。

論文摘要特別強調一件事：檢索品質很關鍵。不是只要有 retrieval 就會加分；如果找回來的題目不夠準，生成端不一定受益，甚至可能被雜訊干擾。

這篇論文證明了什麼

摘要有幾個直接結果。第一，這個 benchmark 對強模型來說仍然不簡單。Gemini-3.1-Pro 得到 78.4%，GPT-5 是 69.3%。這代表 MathNet 不是那種隨便就滿分的題庫，還有能力把不同強模型拉開。

第二，embedding 模型在找數學等價題這件事上表現不理想。這對做向量搜尋的人是個提醒：一般語意嵌入在自然語言上可能夠用，但一碰到數學結構，表面語意和真正等價不一定是同一件事。

第三，RAG 的表現很吃檢索品質。作者指出，DeepSeek-V3.2-Speciale 在這個 benchmark 上最高，且相較基準有最高可達 12% 的提升。這個數字的重點不是某個模型神，而是說檢索真的有機會幫忙，但前提是檢索得夠準。

不過，摘要也有明顯限制。它沒有公開完整 benchmark 細節，所以看不到每個語言、每種題型、或每種任務的完整分數分布。換句話說，現在能確定的是整體方向和幾個代表性結果，但還不能從摘要直接判斷模型到底卡在哪些子任務上。

對開發者有什麼實際影響

如果你在做數學助教、作業輔助工具、STEM 搜尋引擎，或任何跟 technical content 有關的 RAG 系統，MathNet 很值得注意。因為它把三個常被分開看的能力，放到同一個評測框架裡：推理、檢索、以及檢索對生成的實際幫助。

這對產品設計很有用。很多系統在 demo 階段看起來能答，但一旦遇到改寫題、翻譯題，或競賽風格比較重的題目，效果就掉下來。MathNet 的多語言、多國家、長時間跨度資料，正是為了讓這種落差更容易被看見。

對做 embedding 或向量資料庫的人來說，這篇論文也很直接。它在提醒你：數學相似度不是一般句子相似度。若你的系統要找的是「等價問題」，那評測方式就不能只看 cosine similarity 的表面結果。

下面是這篇摘要對實作最有感的幾個訊號：

數學檢索不能只靠一般語意向量。
RAG 是否有效，很看你找回來的題目準不準。
多語言場景會放大模型在表達差異上的弱點。
強推理模型不代表在數學檢索上也強。

還有哪些限制和未解問題

這篇摘要雖然把方向講得很清楚，但也留下不少空白。首先，它沒有提供完整 benchmark breakdown，所以不知道不同語言之間差多少，也不知道哪些題型最難。

其次，摘要沒有說明它怎麼處理長篇推導、圖形題，或不同解法風格。這些在真實數學任務裡都很常見，但從目前公開的摘要內容，還看不出 benchmark 對這些情境覆蓋多深。

另外，摘要也沒有把「語言差異」和「數學難度」拆開講清楚。也就是說，模型分數低，到底是因為看不懂語言，還是因為數學本身太難，現在還不能從這份摘要直接下結論。

但即使有這些限制，MathNet 仍然是個很實用的方向。它把數學系統該測的東西往前推了一步，不再只問「會不會解」，而是進一步問「會不會找、找得準不準、找到了有沒有真的幫上忙」。

對台灣開發者來說，這種 benchmark 的價值很直接：如果你想做下一代數學助理或技術搜尋工具，MathNet 提供的是更接近產品現場的評測方式，而不是只看單一準確率的漂亮分數。

整體來看，MathNet 比較像一個把數學 AI 評測往實戰拉近的工具箱。它把全球奧賽題、專家配對的相似題、以及 retrieval-augmented 的流程綁在一起，讓研究者和工程團隊更容易看見系統真正的短板。

MathNet 把數學推理和檢索一起測

MathNet 想解的痛點是什麼

資料集到底長什麼樣

方法怎麼運作，白話講

這篇論文證明了什麼

對開發者有什麼實際影響

還有哪些限制和未解問題

Related Articles

BRRL 重新定義 PPO 剪裁目標

Sessa 把注意力放進狀態空間記憶

Prompt 工程正在變成基礎設施

AI 工作為何需要提示標準

Mythos 為何沒公開？

知識圖譜加 LLM 讓製造業 XAI 更好懂