[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-mathnet-benchmark-math-reasoning-retrieval-zh":3,"article-related-mathnet-benchmark-math-reasoning-retrieval-zh":26,"series-research-ac5a1a8a-b0f6-46f6-85f5-47f01b5f6c51":71},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":11,"views":23,"created_at":24,"published_at":25,"topic_cluster_id":11},"ac5a1a8a-b0f6-46f6-85f5-47f01b5f6c51","mathnet-benchmark-math-reasoning-retrieval-zh","MathNet 把數學推理和檢索一起測","\u003Cp>大型語言模型會寫字，但數學推理還是常見硬傷。很多 benchmark 只看「會不會解題」，卻不管系統能不能找出相關題目、能不能把檢索結果用進生成流程。這篇 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.18584\">MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval\u003C\u002Fa>，就是想把這三件事放進同一套評測裡。\u003C\u002Fp>\u003Cp>它不是單純做大題庫而已。MathNet 把奧林匹亞等級的數學題，和一個專門測「數學檢索」的資料集綁在一起，讓模型不只要解題，還要能找出數學上等價或結構相似的題目。對做教育工具、技術搜尋、或 RAG 系統的人來說，這個方向很實際。\u003C\u002Fp>\u003Cp>因為真實世界裡，數學題常常不是原封不動出現。它可能被改寫、翻譯、換一種敘述方式，甚至只保留關鍵條件。這時候，單看文字相似度的檢索不夠用；如果檢索層抓不到對的題目，後面的生成模型再強也可能被拖累。\u003C\u002Fp>\u003Ch2>MathNet 想解的痛點是什麼\u003C\u002Fh2>\u003Cp>這篇論文先指出一個老問題：現有數學 benchmark 往往太小、太偏單一語言，或只測很窄的任務。這會讓評測結果看起來很漂亮，但不一定能反映真實應用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776751441331-oooq.png\" alt=\"MathNet 把數學推理和檢索一起測\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>更關鍵的是，多數 benchmark 只測「解題」。但在很多實際系統裡，先找相似題、找等價表述、找支撐例子，再把這些內容交給生成模型，才是完整流程。也就是說，數學系統不只是 reasoning，還有 retrieval。MathNet 的設計，就是想把這個缺口補起來。\u003C\u002Fp>\u003Cp>所以它關心的不是單點能力，而是整條鏈：模型能不能做數學推理、檢索模型能不能找出真正相關的題目、以及檢索到的內容能不能幫助下游生成。\u003C\u002Fp>\u003Ch2>資料集到底長什麼樣\u003C\u002Fh2>\u003Cp>MathNet 被描述成一個高品質、大規模、多模態、多語言的奧林匹亞數學資料集，裡面有解答。來源涵蓋 47 個國家、17 種語言，時間跨度是 20 年，總共有 30,676 題由專家整理的題目。\u003C\u002Fp>\u003Cp>這個規模的意義不只是「很多題」。它代表題目寫法、符號習慣、語言表達和競賽風格都更分散。對做跨語言搜尋、全球化教育產品，或多語系數學助教的人來說，這種差異很重要。因為數學題不是只有英文版本，也不是每個地區都用同一種敘事方式。\u003C\u002Fp>\u003Cp>除了解題資料，作者還另外做了一個檢索 benchmark。這部分不是靠關鍵字湊對，而是由專家人工整理出「數學上等價」和「結構上相似」的題目配對。這一點很重要，因為它測的是模型有沒有看懂數學關係，而不是只會抓表面字詞重疊。\u003C\u002Fp>\u003Cul>\u003Cli>解題評測：看模型能不能做奧賽等級數學題。\u003C\u002Fli>\u003Cli>數學檢索評測：看 embedding 模型能不能找出相似題。\u003C\u002Fli>\u003Cli>RAG 評測：看檢索結果有沒有真的幫到生成。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>方法怎麼運作，白話講\u003C\u002Fh2>\u003Cp>你可以把 MathNet 想成兩個 benchmark 合在一起。第一個是大題庫，用來評估模型的數學推理能力。第二個是檢索題庫，用來評估向量檢索系統和 retrieval pipeline。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776751435530-ndds.png\" alt=\"MathNet 把數學推理和檢索一起測\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>比較新的地方在檢索設計。一般檢索常看字面相近不相近，但 MathNet 的題目配對是由專家確認，重點是「數學上是不是同一類問題」。這會逼系統去理解問題結構，而不是只靠詞彙重疊。\u003C\u002Fp>\u003Cp>在 retrieval-augme\u003Ca href=\"\u002Fnews\u002Fanthropic-800b-valuation-funding-zh\">nt\u003C\u002Fa>ed generation 的流程裡，做法也很直白：先找一題相關題目，再把檢索到的內容丟給生成模型，最後看答案有沒有變好。這就是很多團隊在做的事，只是 MathNet 把它變成可衡量的 benchmark。\u003C\u002Fp>\u003Cp>論文摘要特別強調一件事：檢索品質很關鍵。不是只要有 retrieval 就會加分；如果找回來的題目不夠準，生成端不一定受益，甚至可能被雜訊干擾。\u003C\u002Fp>\u003Ch2>這篇論文證明了什麼\u003C\u002Fh2>\u003Cp>摘要有幾個直接結果。第一，這個 benchmark 對強模型來說仍然不簡單。Gemini-3.1-\u003Ca href=\"\u002Fnews\u002Fprompt-engineering-becoming-infrastructure-zh\">Pro\u003C\u002Fa> 得到 78.4%，GPT-5 是 69.3%。這代表 MathNet 不是那種隨便就滿分的題庫，還有能力把不同強模型拉開。\u003C\u002Fp>\u003Cp>第二，embedding 模型在找數學等價題這件事上表現不理想。這對做向量搜尋的人是個提醒：一般語意嵌入在自然語言上可能夠用，但一碰到數學結構，表面語意和真正等價不一定是同一件事。\u003C\u002Fp>\u003Cp>第三，RAG 的表現很吃檢索品質。作者指出，DeepSeek-V3.2-Speciale 在這個 benchmark 上最高，且相較基準有最高可達 12% 的提升。這個數字的重點不是某個模型神，而是說檢索真的有機會幫忙，但前提是檢索得夠準。\u003C\u002Fp>\u003Cp>不過，摘要也有明顯限制。它沒有公開完整 benchmark 細節，所以看不到每個語言、每種題型、或每種任務的完整分數分布。換句話說，現在能確定的是整體方向和幾個代表性結果，但還不能從摘要直接判斷模型到底卡在哪些子任務上。\u003C\u002Fp>\u003Ch2>對開發者有什麼實際影響\u003C\u002Fh2>\u003Cp>如果你在做數學助教、作業輔助工具、STEM 搜尋引擎，或任何跟 technical content 有關的 RAG 系統，MathNet 很值得注意。因為它把三個常被分開看的能力，放到同一個評測框架裡：推理、檢索、以及檢索對生成的實際幫助。\u003C\u002Fp>\u003Cp>這對產品設計很有用。很多系統在 demo 階段看起來能答，但一旦遇到改寫題、翻譯題，或競賽風格比較重的題目，效果就掉下來。MathNet 的多語言、多國家、長時間跨度資料，正是為了讓這種落差更容易被看見。\u003C\u002Fp>\u003Cp>對做 embedding 或向量資料庫的人來說，這篇論文也很直接。它在提醒你：數學相似度不是一般句子相似度。若你的系統要找的是「等價問題」，那評測方式就不能只看 cosine similarity 的表面結果。\u003C\u002Fp>\u003Cp>下面是這篇摘要對實作最有感的幾個訊號：\u003C\u002Fp>\u003Cul>\u003Cli>數學檢索不能只靠一般語意向量。\u003C\u002Fli>\u003Cli>RAG 是否有效，很看你找回來的題目準不準。\u003C\u002Fli>\u003Cli>多語言場景會放大模型在表達差異上的弱點。\u003C\u002Fli>\u003Cli>強推理模型不代表在數學檢索上也強。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>還有哪些限制和未解問題\u003C\u002Fh2>\u003Cp>這篇摘要雖然把方向講得很清楚，但也留下不少空白。首先，它沒有提供完整 benchmark breakdown，所以不知道不同語言之間差多少，也不知道哪些題型最難。\u003C\u002Fp>\u003Cp>其次，摘要沒有說明它怎麼處理長篇推導、圖形題，或不同解法風格。這些在真實數學任務裡都很常見，但從目前公開的摘要內容，還看不出 benchmark 對這些情境覆蓋多深。\u003C\u002Fp>\u003Cp>另外，摘要也沒有把「語言差異」和「數學難度」拆開講清楚。也就是說，模型分數低，到底是因為看不懂語言，還是因為數學本身太難，現在還不能從這份摘要直接下結論。\u003C\u002Fp>\u003Cp>但即使有這些限制，MathNet 仍然是個很實用的方向。它把數學系統該測的東西往前推了一步，不再只問「會不會解」，而是進一步問「會不會找、找得準不準、找到了有沒有真的幫上忙」。\u003C\u002Fp>\u003Cp>對台灣開發者來說，這種 benchmark 的價值很直接：如果你想做下一代數學助理或技術搜尋工具，MathNet 提供的是更接近產品現場的評測方式，而不是只看單一準確率的漂亮分數。\u003C\u002Fp>\u003Cp>整體來看，MathNet 比較像一個把數學 \u003Ca href=\"\u002Fnews\u002Fwhy-prompt-standards-matter-for-ai-work-zh\">AI\u003C\u002Fa> 評測往實戰拉近的工具箱。它把全球奧賽題、專家配對的相似題、以及 retrieval-augmented 的流程綁在一起，讓研究者和工程團隊更容易看見系統真正的短板。\u003C\u002Fp>","MathNet 用 30,676 題、47 國、17 語言的奧賽數學題，同時測推理、相似題檢索與 RAG 效果。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.18584",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1776751441331-oooq.png","research","zh","2ff3b7ca-c656-4814-9057-0457055b9263",[17,18,19,20,21,22],"數學推理","檢索","RAG","多語言","向量搜尋","奧林匹亞數學",6,"2026-04-21T06:03:38.63837+00:00","2026-04-21T06:03:38.605+00:00",{"tags":27,"relatedLang":30,"relatedPosts":34},[28],{"name":19,"slug":29},"rag",{"id":15,"slug":31,"title":32,"language":33},"mathnet-benchmark-math-reasoning-retrieval-en","MathNet: Global Multimodal Math Reasoning & Retrieval","en",[35,41,47,53,59,65],{"id":36,"slug":37,"title":38,"cover_image":39,"image_url":39,"created_at":40,"category":13},"d6f25c66-98f5-4971-8d1d-487fb5fe1881","claude-sonnet-46-sre-benchmark-rootly-zh","Claude Sonnet 4.6 對上 SRE 工作更接近 Opus","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782750780131-xelc.png","2026-06-29T16:32:28.457338+00:00",{"id":42,"slug":43,"title":44,"cover_image":45,"image_url":45,"created_at":46,"category":13},"29321237-6e9a-4271-b9fb-e43e798d5dff","glm-52-beats-claude-semgrep-idor-test-zh","GLM 5.2 在 IDOR 測試贏過 Claude","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782749882713-7i5n.png","2026-06-29T16:17:31.911487+00:00",{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"5172bfc7-34c8-4477-a177-ffa615497ecf","opd-distillation-skills-without-bruteforce-rl-zh","OPD 讓你把技能蒸餾進模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782730101413-5wjx.png","2026-06-29T10:47:57.457072+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"6f5be102-5764-44f1-ab3f-722fc5c32c23","google-deepmind-turns-science-into-tools-zh","Google DeepMind把AI變研究工具","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782721105628-g4op.png","2026-06-29T08:17:57.716568+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"c649adb7-c8ae-4ade-a092-2c0d53beeb71","measuring-llm-behavior-portability-zh","LLM 行為不一定可移植","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782717472977-na8g.png","2026-06-29T07:17:29.597679+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"637c3016-e364-4bfe-904e-5e60a18ed678","prompt-injection-ai-security-problem-zh","Prompt injection 已是 AI 資安問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1782716580916-m1nm.png","2026-06-29T07:02:36.173749+00:00",[72,77,82,87,92,97,102,107,112,117],{"id":73,"slug":74,"title":75,"created_at":76},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":78,"slug":79,"title":80,"created_at":81},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":83,"slug":84,"title":85,"created_at":86},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":88,"slug":89,"title":90,"created_at":91},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]