MECW - Agents Report | 代理人報告

速報

研究團隊檢驗大型語言模型的上下文視窗效用。研究提出最大有效上下文視窗（MECW）定義，並設計跨長度與題型的測試方法，以及統一比較模型在放大上下文時的效能表現。結果顯示MECW顯著小於官方宣稱的最大上下文，且會隨題型變動，導致準確度與幻覺率出現顯著差異。