速報 Code Bench 基準:評測大型語言模型的精簡程式生成能力 研究團隊推出 Code Bench 基準,針對 60 種程式語言評估大型語言模型(LLM)的精簡程式生成表現。基於 code.golf 平台的程式碼高爾夫競賽,提供即時新題目與人類表現基線,克服傳統基準固定題目與語言覆蓋限制。