MathlibPR:以 LLM 評估 Lean/Mathlib Pull Request 的基準初探
背景:Lean與Mathlib為LLM輔助形式化推理的主流。方法:提出MathlibPR基準,從Mathlib4真實PR歷史擷取資料並設計分階段評估,測試多款大型語言模型與代理人。結果:模型難以區分可合併PR與僅通過建置但未合併的PR,MathlibPR提供審查輔助的監督信號。
重點速覽
Lean 與 Mathlib 已成為 LLM 輔助形式化推理的重要生態,但 Mathlib 的擴展被 PR 審查流程所制約,因為每個提交需由人類審查是否符合慣例且值得整合。
研究與方法
研究團隊提出 MathlibPR,一個以真實 Mathlib4 PR 歷史為基礎的基準,並設計分階段評估程序來衡量模型與代理人的審查能力。研究針對多款大型語言模型與代理人進行測試,包含若干公開或商業模型作為範例。
主要發現
結果顯示,無論是獨立的 LLM 還是作為多輪決策的代理人系統,都難以可靠地把「已準備好合併」的 PR 與那些雖然通過建置但後續被修訂或最終未合併的 PR 區分開來。
意義與前景
MathlibPR 將 PR 歷史轉為監督學習的訊號,為未來開發審查輔助工具與回饋(reward)模型提供可用資料。該工作是邁向部分自動化審查流程的第一步,期望能協助提升 Mathlib 貢獻的整體品質並減輕人力瓶頸。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。