ReproRepo:利用 GitHub Issue 評估大型語言模型在科研可重現性上的表現
科研可重現性是關鍵。研究者打造 ReproRepo,利用 GitHub Issue 作為自然標註,評估大型語言模型找出論文與程式碼庫的阻礙。測試 1,149 篇機器學習論文,最佳模型在約 90% 論文中偵測到至少一項人類報告的問題,顯示模型在可重現性稽核上具備實用潛力。
背景與動機
科研成果能否被他人重現,是科學信任與進步的基礎。過去已有基準測試大型語言模型(LLM)在協助可重現性上的表現,但因需要大量人工整理與評估,難以大規模推行。
ReproRepo 框架概述
研究團隊開發了 ReproRepo,透過自動收集 GitHub 上與論文相關的 issue,將真實的重現阻礙作為監督訊號。這些 issue 本身即是開發者在實作過程中遇到的問題,具備高度真實性。
實驗設計
研究者選取 1,149 篇近期機器學習會議論文,搭配其公開程式碼庫,測試四種前沿 LLM 代理組合,包括 Codex、GPT‑5.5 等模型。模型僅以自然語言分析論文與程式碼說明,並未執行實際程式碼。
主要結果
最佳組合(Codex + GPT‑5.5)在約 90% 的論文中,成功找出至少一個與人類報告相符的阻礙。模型特別擅長辨識明顯的失敗訊息與定位相關語意區塊,但在精確指出問題所在的程式碼行數上仍有不足。
意涵與未來方向
ReproRepo 為 LLM 在真實科研可重現性稽核提供了可重複、可擴展的測試平台。未來可結合自動化執行與更細緻的定位技術,提升模型在協助研究者解決重現問題上的效能。相關程式碼已於 GitHub 開源,供社群進一步開發與驗證。
延伸閱讀
- DeLM:利用共享驗證上下文提升大型語言模型多代理效能
- CAF-Gen:利用多代理系統提升 CAF 框架論證挖掘的自動化精度
- 結合 OpenPsi 與 MetaMo 的十階段動機管線:對話式 AGI 的雙速決策策略
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。