上下文長度 - Agents Report

速報

研究團隊針對大型語言模型（LLM）在同時處理多份文件或多筆實例時的表現做全面評估。雖然模型在單一任務上通常表現良好，但在多實例情境中會先出現小幅效能下降（約20到100筆實例），隨著實例數再增加則出現明顯崩潰。分析指出，上下文長度與效能衰退相關，但實例數對最終表現影響更強；