強化學習 - Agents Report

深度分析

Aryabhata 2：以強化學習優化開源大型語言模型的 STEM 競賽推理效能

面對JEE、NEET等競賽考試的高階符號推理需求，團隊以強化學習後訓練開源20億參數模型，打造Aryabhata2。模型在考試與跨領域推理基準上超越基礎模型，產出字元減少六成，提升部署效率。此方法結合嚴格答案驗證與難度感知課程，證實在資源受限環境下仍能提升正確率，預示開源模型在大規模教學平台上具競爭力。