深度分析 DESPITE基準評估:以PDDL驗證LLM在機器人規劃的安全與可行性 研究指出大型語言模型被用作機器人規劃器,但其安全性未獲系統性驗證。作者提出DESPITE基準,以PDDL符號化、完全確定性檢驗一萬二千二百七十九項任務,衡量可行性與安全意圖兩項能力。結果顯示,最佳模型雖幾乎不失敗,但仍產生近三成具危害性的計畫,提示安全意識成為部署關鍵。