Code Bench 基準:評測大型語言模型的精簡程式生成能力
研究團隊推出 Code Bench 基準,針對 60 種程式語言評估大型語言模型(LLM)的精簡程式生成表現。基於 code.golf 平台的程式碼高爾夫競賽,提供即時新題目與人類表現基線,克服傳統基準固定題目與語言覆蓋限制。
Code Bench 基準概述
研究團隊發表了 Code Bench,一套能在 60 種程式語言上評估大型語言模型(LLM)精簡程式生成能力的基準。它以程式碼高爾夫(code golf)為核心概念,聚焦於以最少字元或位元解決問題的能力。
與既有基準的差異
傳統基準往往受限於固定題目與語言覆蓋範圍,Code Bench 直接利用 code.golf 平台的題庫,持續取得新題目,並以即時的人類表現作為基線,形成動態且具挑戰性的測試環境。
實驗設計與結果
研究者選取九種 LLM,分別在 Python 與 C++ 兩個語言上執行測試。結果顯示,具推理能力的模型在平均百分位上達到 70.97%,明顯領先非推理模型。尤其在 C++ 上,語法限制更嚴格,推理模型的優勢更為顯著。
相較之下,非推理模型在效率最佳化方面表現較弱,無論是 Python 還是 C++,其最佳百分位均顯著低於推理模型。
意義與未來應用
Code Bench 為評估 LLM 程式碼生成提供了一個可持續更新、與人類表現同步的框架,未來可用於追蹤模型在程式碼精簡與效能優化上的進步,對 AI 程式設計工具的研發具有參考價值。
延伸閱讀
- 結合 LSTM 狀態估計與殘差式強化學習的延遲韌性遙控架構
- LineRides:用線條與關鍵取向引導強化學習,讓 UMV 自行車型機器人掌握高動態特技
- DeMP:結合元學習與 SAC 的跨回合欺瞞路徑規劃
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。