大型語言模型 「宣告式反射執行協定」:分層評估大型語言模型、世界模型與符號反思的效能 本研究針對大型語言模型(LLM)驅動的自我修正代理,提出可檢視的反射執行協定,將代理的能力分解為四個層面:信念追蹤、顯式世界模型規劃、符號式即時反思與稀疏 LLM 修正。實驗以噪聲協作戰艦(Collaborative Battleship)為測試平台,透過 54 場比賽比較四種逐步結構化的代理。