few-shot-learning - Agents Report

深度分析

本研究系統性比較大型語言模型（LLM）與人類在多項記憶任務上的表現，建立包含十個任務的基準測試，並收集人類參考資料。作者發現預設模型在多數任務達到近乎滿分，顯著超越人類記憶表現。