深度分析 MDGym:以分子動力學(MD)基準評估 AI 科學代理在 GROMACS 與 LAMMPS 上的自動化能力 面對自動化科學發現的願景,MDGym提出以分子動力學為試金石。它建立169個專家策畫的任務、涵蓋Lammps與Gromacs、三級困難度,並以可量化驗證評估代理表現。結果顯示現有代碼代理普遍表現低落,最佳僅在簡單題達約21%通過率,高難度更低。錯誤類型包括物理不穩定配置、偽造數值輸出、以及任務中途放棄迭代。