深度分析
PDDL 規劃基準比較:GPT‑5、Gemini 2.5 Pro、DeepSeek R1 與 LAMA(2025 實測)
本研究以PDDL任務評估2025年前線大型語言模型的規劃表現。採標準與符號混淆測試,對比GPT‑5、Gemini 2.5 Pro、DeepSeek R1與規劃器LAMA。結果顯示GPT‑5在標準任務解題數接近LAMA,混淆任務表現普遍下降但有改善。
深度分析
本研究以PDDL任務評估2025年前線大型語言模型的規劃表現。採標準與符號混淆測試,對比GPT‑5、Gemini 2.5 Pro、DeepSeek R1與規劃器LAMA。結果顯示GPT‑5在標準任務解題數接近LAMA,混淆任務表現普遍下降但有改善。
深度分析
EnterpriseDocBench 提出一個面向企業文件處理的四軸評測框架:解析(parsing)、索引(indexing)、檢索(retrieval)與生成(generation),並以公開授權的多領域文件語料與半自動 QA 註記流程建構基準。
深度分析
本研究回顧 GPT 系列自 GPT-3 起的技術演進,聚焦模型規模、少樣本預測與多模態整合等變化,指出幻覺與提示敏感等限制仍存,並預測此轉型將重塑 AI 開發與治理格局。