深度分析 PDDL 規劃基準比較:GPT‑5、Gemini 2.5 Pro、DeepSeek R1 與 LAMA(2025 實測) 本研究以PDDL任務評估2025年前線大型語言模型的規劃表現。採標準與符號混淆測試,對比GPT‑5、Gemini 2.5 Pro、DeepSeek R1與規劃器LAMA。結果顯示GPT‑5在標準任務解題數接近LAMA,混淆任務表現普遍下降但有改善。