行為神經科學 - Agents Report

大型語言模型

研究提出 CheeseBench 基準，以九種老鼠行為神經科學任務測試大型語言模型。模型在純文字 ASCII 環境下需自行探索目標，最佳 7B 參數模型達 52.6% 成功率，仍低於老鼠基準。結果顯示規模提升、上下文長度與提示方式對表現影響顯著。