multimodal-math-benchmark - Agents Report

深度分析

競賽等級數學仍是衡量大型語言與多模態模型推理能力的試金石。MathNet匯集三萬餘道專家題解，跨47國與17語，設計解題、數學感知檢索與檢索增強三項任務。實驗顯示生成模型解題表現受限，嵌入檢索難以識別數學等價，且RAG高度依賴檢索品質，仍需改進。