速報 ReproRepo:利用 GitHub Issue 評估大型語言模型在科研可重現性上的表現 科研可重現性是關鍵。研究者打造 ReproRepo,利用 GitHub Issue 作為自然標註,評估大型語言模型找出論文與程式碼庫的阻礙。測試 1,149 篇機器學習論文,最佳模型在約 90% 論文中偵測到至少一項人類報告的問題,顯示模型在可重現性稽核上具備實用潛力。