深度分析 InfiniteScienceGym:程式化生成的科學推理基準測試平台 為解決傳統科學基準的偏見與儲存負擔,研究者提出 InfiniteScienceGym,利用程式化方式自動產生完整的科研資料庫與問答任務,並提供精確真值。測試顯示所有模型正確率最高僅 45%,且辨識不可答問題仍是弱點。此基準可補足現有資料集的盲點,為 AI 科學助理評估提供新方向。