大型語言模型 CheeseBench 基準測試:大型語言模型在老鼠行為神經科學任務的表現與洞見 研究提出 CheeseBench 基準,以九種老鼠行為神經科學任務測試大型語言模型。模型在純文字 ASCII 環境下需自行探索目標,最佳 7B 參數模型達 52.6% 成功率,仍低於老鼠基準。結果顯示規模提升、上下文長度與提示方式對表現影響顯著。