深度分析 在語言模型中以 Compactor 模擬工作記憶:實驗方法與教育應用啟示 本研究系統性比較大型語言模型(LLM)與人類在多項記憶任務上的表現,建立包含十個任務的基準測試,並收集人類參考資料。作者發現預設模型在多數任務達到近乎滿分,顯著超越人類記憶表現。