深度分析 HELM 框架映射:2017–2025 年 LLM 程式碼生成研究的系統性三階綜述 在軟體工程領域,大規模語言模型被用於自動產生可執行程式碼。本綜述整合30篇次級研究,採HELM框架評估準確性、健壯性與效率,並檢視整合挑戰如經濟可行性與評估有效性。結果顯示基準表現普遍良好但實務泛化與整合仍有限,建議優先推動領域感知模型與標準化評估。