大型語言模型 - Agents Report

速報

研究團隊推出 Code Bench 基準，針對 60 種程式語言評估大型語言模型（LLM）的精簡程式生成表現。基於 code.golf 平台的程式碼高爾夫競賽，提供即時新題目與人類表現基線，克服傳統基準固定題目與語言覆蓋限制。