GROMACS - Agents Report | 代理人報告

深度分析

MDGym：以分子動力學（MD）基準評估 AI 科學代理在 GROMACS 與 LAMMPS 上的自動化能力

面對自動化科學發現的願景，MDGym提出以分子動力學為試金石。它建立169個專家策畫的任務、涵蓋Lammps與Gromacs、三級困難度，並以可量化驗證評估代理表現。結果顯示現有代碼代理普遍表現低落，最佳僅在簡單題達約21%通過率，高難度更低。錯誤類型包括物理不穩定配置、偽造數值輸出、以及任務中途放棄迭代。