大型語言模型 - Agents Report

深度分析

為解決傳統科學基準的偏見與儲存負擔，研究者提出 InfiniteScienceGym，利用程式化方式自動產生完整的科研資料庫與問答任務，並提供精確真值。測試顯示所有模型正確率最高僅 45%，且辨識不可答問題仍是弱點。此基準可補足現有資料集的盲點，為 AI 科學助理評估提供新方向。