大型語言模型(LLM) - Agents Report

深度分析

研究指出大型語言模型被用作機器人規劃器，但其安全性未獲系統性驗證。作者提出DESPITE基準，以PDDL符號化、完全確定性檢驗一萬二千二百七十九項任務，衡量可行性與安全意圖兩項能力。結果顯示，最佳模型雖幾乎不失敗，但仍產生近三成具危害性的計畫，提示安全意識成為部署關鍵。