深度分析 MathNet:評估數學感知檢索、嵌入與RAG的跨語言多模態基準 競賽等級數學仍是衡量大型語言與多模態模型推理能力的試金石。MathNet匯集三萬餘道專家題解,跨47國與17語,設計解題、數學感知檢索與檢索增強三項任務。實驗顯示生成模型解題表現受限,嵌入檢索難以識別數學等價,且RAG高度依賴檢索品質,仍需改進。