大規模語言模型 (LLM) - Agents Report

深度分析

在軟體工程領域，大規模語言模型被用於自動產生可執行程式碼。本綜述整合30篇次級研究，採HELM框架評估準確性、健壯性與效率，並檢視整合挑戰如經濟可行性與評估有效性。結果顯示基準表現普遍良好但實務泛化與整合仍有限，建議優先推動領域感知模型與標準化評估。