GPT-5 - Agents Report | 代理人報告

深度分析

GPT-5 驅動自動化神經架構搜尋，跨語言手寫辨識準確率達 98.1%

手寫文字辨識因語言筆畫差異而困難重重。本研究讓 GPT-5、GPT-4o 與 Claude Sonnet 4 扮演神經架構設計師，透過閉環回饋自動生成並優化模型。在阿拉伯語、英語、波斯語上，平均準確率超過 93%，最佳達 98.1%，推論時間約 41 毫秒，驗證了 LLM 驅動自動機器學習的可行性。

深度分析

GPT‑5 以三種提示策略測試 Scrum 認證題目，最高正確率 89.1%

隨著大型語言模型在敏捷開發領域的應用日增，研究者測試 GPT‑5 以不同提示方式回答 Scrum 認證題目。實驗比較零樣本、思考鏈與引用來源三種提示，發現加入來源引用可將正確率提升至 89.1%，且錯誤率最低。結果顯示，結構化提示能提升 AI 在規範性 Scrum 知識上的可靠度，對教學與考證有實務價值。

深度分析

非洲語系 Tokenization 成本差異：子詞 Fertility 與大型語言模型的結構性懲罰

研究指出，目前主流大型語言模型的子詞分詞器在非英語非洲語系上產生較高的 token 數，導致 API 成本與延遲提升。以 11 種前沿分詞器測試 19 種非洲語言，最小溢價 1.29 倍，最高 8.92 倍。結果顯示語系與字母表覆蓋是主要因素，且可透過增大詞彙表或針對性設計減輕。

深度分析

PDDL 規劃基準比較：GPT‑5、Gemini 2.5 Pro、DeepSeek R1 與 LAMA（2025 實測）

本研究以PDDL任務評估2025年前線大型語言模型的規劃表現。採標準與符號混淆測試，對比GPT‑5、Gemini 2.5 Pro、DeepSeek R1與規劃器LAMA。結果顯示GPT‑5在標準任務解題數接近LAMA，混淆任務表現普遍下降但有改善。

深度分析

EnterpriseDocBench 四軸基準：比較 BM25、E5 嵌入與混合檢索在企業文件上的效能

EnterpriseDocBench 提出一個面向企業文件處理的四軸評測框架：解析（parsing）、索引（indexing）、檢索（retrieval）與生成（generation），並以公開授權的多領域文件語料與半自動 QA 註記流程建構基準。

深度分析

從 GPT-3 到 GPT-5：技術演進、功能擴張與限制全解析

本研究回顧 GPT 系列自 GPT-3 起的技術演進，聚焦模型規模、少樣本預測與多模態整合等變化，指出幻覺與提示敏感等限制仍存，並預測此轉型將重塑 AI 開發與治理格局。