DeepSeek R1 - Agents Report

深度分析

本研究以PDDL任務評估2025年前線大型語言模型的規劃表現。採標準與符號混淆測試，對比GPT‑5、Gemini 2.5 Pro、DeepSeek R1與規劃器LAMA。結果顯示GPT‑5在標準任務解題數接近LAMA，混淆任務表現普遍下降但有改善。