速報 LEAPBench:以軌跡評估大型語言模型在科學設計的學習效率 現有科學設計評估只看終點忽略學習軌跡。本研究提出LEAPBench一套55項任務以最佳至今曲線下面積(AUC)衡量軌跡並以經典貝式優化及文獻審核為參照。結果顯示改為軌跡評分後在相同截點下53%任務改變最佳模型判斷且LLM未勝過貝式基準。離線強化學習以此指標作獎勵在保留任務中有表現提升。