Research/·6 min read·OraCore Editors

MathNet 把數學推理和檢索一起測

MathNet 用 30,676 題、47 國、17 語言的奧賽數學題,同時測推理、相似題檢索與 RAG 效果。

Share LinkedIn
MathNet 把數學推理和檢索一起測

大型語言模型會寫字,但數學推理還是常見硬傷。很多 benchmark 只看「會不會解題」,卻不管系統能不能找出相關題目、能不能把檢索結果用進生成流程。這篇 MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval,就是想把這三件事放進同一套評測裡。

它不是單純做大題庫而已。MathNet 把奧林匹亞等級的數學題,和一個專門測「數學檢索」的資料集綁在一起,讓模型不只要解題,還要能找出數學上等價或結構相似的題目。對做教育工具、技術搜尋、或 RAG 系統的人來說,這個方向很實際。

因為真實世界裡,數學題常常不是原封不動出現。它可能被改寫、翻譯、換一種敘述方式,甚至只保留關鍵條件。這時候,單看文字相似度的檢索不夠用;如果檢索層抓不到對的題目,後面的生成模型再強也可能被拖累。

MathNet 想解的痛點是什麼

這篇論文先指出一個老問題:現有數學 benchmark 往往太小、太偏單一語言,或只測很窄的任務。這會讓評測結果看起來很漂亮,但不一定能反映真實應用。

MathNet 把數學推理和檢索一起測

更關鍵的是,多數 benchmark 只測「解題」。但在很多實際系統裡,先找相似題、找等價表述、找支撐例子,再把這些內容交給生成模型,才是完整流程。也就是說,數學系統不只是 reasoning,還有 retrieval。MathNet 的設計,就是想把這個缺口補起來。

所以它關心的不是單點能力,而是整條鏈:模型能不能做數學推理、檢索模型能不能找出真正相關的題目、以及檢索到的內容能不能幫助下游生成。

資料集到底長什麼樣

MathNet 被描述成一個高品質、大規模、多模態、多語言的奧林匹亞數學資料集,裡面有解答。來源涵蓋 47 個國家、17 種語言,時間跨度是 20 年,總共有 30,676 題由專家整理的題目。

這個規模的意義不只是「很多題」。它代表題目寫法、符號習慣、語言表達和競賽風格都更分散。對做跨語言搜尋、全球化教育產品,或多語系數學助教的人來說,這種差異很重要。因為數學題不是只有英文版本,也不是每個地區都用同一種敘事方式。

除了解題資料,作者還另外做了一個檢索 benchmark。這部分不是靠關鍵字湊對,而是由專家人工整理出「數學上等價」和「結構上相似」的題目配對。這一點很重要,因為它測的是模型有沒有看懂數學關係,而不是只會抓表面字詞重疊。

  • 解題評測:看模型能不能做奧賽等級數學題。
  • 數學檢索評測:看 embedding 模型能不能找出相似題。
  • RAG 評測:看檢索結果有沒有真的幫到生成。

方法怎麼運作,白話講

你可以把 MathNet 想成兩個 benchmark 合在一起。第一個是大題庫,用來評估模型的數學推理能力。第二個是檢索題庫,用來評估向量檢索系統和 retrieval pipeline。

MathNet 把數學推理和檢索一起測

比較新的地方在檢索設計。一般檢索常看字面相近不相近,但 MathNet 的題目配對是由專家確認,重點是「數學上是不是同一類問題」。這會逼系統去理解問題結構,而不是只靠詞彙重疊。

在 retrieval-augmented generation 的流程裡,做法也很直白:先找一題相關題目,再把檢索到的內容丟給生成模型,最後看答案有沒有變好。這就是很多團隊在做的事,只是 MathNet 把它變成可衡量的 benchmark。

論文摘要特別強調一件事:檢索品質很關鍵。不是只要有 retrieval 就會加分;如果找回來的題目不夠準,生成端不一定受益,甚至可能被雜訊干擾。

這篇論文證明了什麼

摘要有幾個直接結果。第一,這個 benchmark 對強模型來說仍然不簡單。Gemini-3.1-Pro 得到 78.4%,GPT-5 是 69.3%。這代表 MathNet 不是那種隨便就滿分的題庫,還有能力把不同強模型拉開。

第二,embedding 模型在找數學等價題這件事上表現不理想。這對做向量搜尋的人是個提醒:一般語意嵌入在自然語言上可能夠用,但一碰到數學結構,表面語意和真正等價不一定是同一件事。

第三,RAG 的表現很吃檢索品質。作者指出,DeepSeek-V3.2-Speciale 在這個 benchmark 上最高,且相較基準有最高可達 12% 的提升。這個數字的重點不是某個模型神,而是說檢索真的有機會幫忙,但前提是檢索得夠準。

不過,摘要也有明顯限制。它沒有公開完整 benchmark 細節,所以看不到每個語言、每種題型、或每種任務的完整分數分布。換句話說,現在能確定的是整體方向和幾個代表性結果,但還不能從摘要直接判斷模型到底卡在哪些子任務上。

對開發者有什麼實際影響

如果你在做數學助教、作業輔助工具、STEM 搜尋引擎,或任何跟 technical content 有關的 RAG 系統,MathNet 很值得注意。因為它把三個常被分開看的能力,放到同一個評測框架裡:推理、檢索、以及檢索對生成的實際幫助。

這對產品設計很有用。很多系統在 demo 階段看起來能答,但一旦遇到改寫題、翻譯題,或競賽風格比較重的題目,效果就掉下來。MathNet 的多語言、多國家、長時間跨度資料,正是為了讓這種落差更容易被看見。

對做 embedding 或向量資料庫的人來說,這篇論文也很直接。它在提醒你:數學相似度不是一般句子相似度。若你的系統要找的是「等價問題」,那評測方式就不能只看 cosine similarity 的表面結果。

下面是這篇摘要對實作最有感的幾個訊號:

  • 數學檢索不能只靠一般語意向量。
  • RAG 是否有效,很看你找回來的題目準不準。
  • 多語言場景會放大模型在表達差異上的弱點。
  • 強推理模型不代表在數學檢索上也強。

還有哪些限制和未解問題

這篇摘要雖然把方向講得很清楚,但也留下不少空白。首先,它沒有提供完整 benchmark breakdown,所以不知道不同語言之間差多少,也不知道哪些題型最難。

其次,摘要沒有說明它怎麼處理長篇推導、圖形題,或不同解法風格。這些在真實數學任務裡都很常見,但從目前公開的摘要內容,還看不出 benchmark 對這些情境覆蓋多深。

另外,摘要也沒有把「語言差異」和「數學難度」拆開講清楚。也就是說,模型分數低,到底是因為看不懂語言,還是因為數學本身太難,現在還不能從這份摘要直接下結論。

但即使有這些限制,MathNet 仍然是個很實用的方向。它把數學系統該測的東西往前推了一步,不再只問「會不會解」,而是進一步問「會不會找、找得準不準、找到了有沒有真的幫上忙」。

對台灣開發者來說,這種 benchmark 的價值很直接:如果你想做下一代數學助理或技術搜尋工具,MathNet 提供的是更接近產品現場的評測方式,而不是只看單一準確率的漂亮分數。

整體來看,MathNet 比較像一個把數學 AI 評測往實戰拉近的工具箱。它把全球奧賽題、專家配對的相似題、以及 retrieval-augmented 的流程綁在一起,讓研究者和工程團隊更容易看見系統真正的短板。