LEAPBench:以軌跡評估大型語言模型在科學設計的學習效率
現有科學設計評估只看終點忽略學習軌跡。本研究提出LEAPBench一套55項任務以最佳至今曲線下面積(AUC)衡量軌跡並以經典貝式優化及文獻審核為參照。結果顯示改為軌跡評分後在相同截點下53%任務改變最佳模型判斷且LLM未勝過貝式基準。離線強化學習以此指標作獎勵在保留任務中有表現提升。
LEAPBench:衡量學習軌跡的科學設計評估
大型語言模型(LLM)正被廣泛應用於自動化實驗設計,但現行基準多只評估終點快照,無法量化每一次迭代節省的成本與時間。為此,作者提出 LEAPBench,一套 55 項任務,使用「最佳至今曲線下面積(AUC)」做為軌跡指標,並以經典貝式優化與文獻審核作為參照。
研究比較三項評估選擇:測量對象、基線比較與依據來源。將評分從最終結果改為軌跡後,在相同截點上有 53% 任務改變最佳模型選擇,這揭露出只看終點時容易忽略的學習效率差異。對八種當代 LLM 的檢測顯示,LLM 並未整體超越經典貝式優化基準。
在 16 項生物任務中,當 oracle 的獎勵與已發表的最佳配置一致時,領域導向提示在第 30 次迭代匹配已發表最佳配置的頻率,反而比通用提示低約十個百分點;在文獻典型配置與已發表最佳配置不一致的 6 項任務上,通用提示全數表現較佳。最後,將軌跡指標做為離線強化學習的獎勵,在 21 項保留任務中有 14 項出現表現改善,顯示軌跡指標既能評估也具訓練價值。
整體而言,作者主張評估應重視學習路徑而非僅看終點,才能真實衡量在實驗設計中每次迭代帶來的時間與成本效益。
延伸閱讀
- 以 NCE 與 SSE 驗證的 AgentSOC:結合生成式推理與圖形化可行性驗證
- pAI/MSc:以人為監督的多代理研究管線與可審計 LangGraph 工作流
- MedSkillAudit:以分層審核評估醫學研究代理人技能的部署準備度
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。