GPT-5.4 - Agents Report | 代理人報告

Universal Context Engine

GitHub發掘Context-Engineering-for-Multi-Agent-Systems專案，提供領域無關的多代理系統框架，透過高階語意編排建構透明上下文引擎，實現代碼省千行、全程可觀測與token使用分析。並支援跨領域案例與即時儀表板。

深度分析

臨床SOAP筆記自動化評估對具推理能力的大型語言模型進行來源感知測試，交叉比較推理模式與同源檢索(RAG)對產出影響。實驗涵蓋三個資料集、七項自動指標與兩位LLM評審，發現開啟原生推理並不穩定提升品質，反而在多數情況降低表現；同源RAG則帶來有限且具模型依賴性的改善。

深度分析

本研究系統性審計三款前沿大型語言模型對十個跨文化個人困境的建議，採行行為情境評分並以世界價值調查為基準。研究比較語言與國別標籤效應，並發現模型普遍偏向西方個體主義，可能對集體主義社會造成價值同質化風險。日本呈現相反趨勢，顯示模型有時保留過時刻板印象。