深度分析 Aryabhata 2:以強化學習優化開源大型語言模型的 STEM 競賽推理效能 面對JEE、NEET等競賽考試的高階符號推理需求,團隊以強化學習後訓練開源20億參數模型,打造Aryabhata2。模型在考試與跨領域推理基準上超越基礎模型,產出字元減少六成,提升部署效率。此方法結合嚴格答案驗證與難度感知課程,證實在資源受限環境下仍能提升正確率,預示開源模型在大規模教學平台上具競爭力。