深度分析
形式驗證代理技能:靜態效果分析、精化型別與SMT-BMC 的三層驗證鏈
本文針對如何把代理技能(skill)在宣告或測試等級之上,升級到可機械檢查的「formal」驗證等級提出完整方法。作者先在語義層面把技能消費分成 deterministic 的腳本端與 stochastic 的 LLM 端,將驗證目標形式化為「能力包含性」。
深度分析
本文針對如何把代理技能(skill)在宣告或測試等級之上,升級到可機械檢查的「formal」驗證等級提出完整方法。作者先在語義層面把技能消費分成 deterministic 的腳本端與 stochastic 的 LLM 端,將驗證目標形式化為「能力包含性」。
深度分析
在專案級單元測試自動化上,現有以執行路徑驅動的 LLM 方法常因跨類依賴、深層呼叫鏈與物件初始化複雜而失靈。本文改寫的研究提出 CAT(一種呼叫鏈感知的 LLM 測試生成法),透過靜態分析抽取呼叫鏈、建構函式與第三方依賴,將這些上下文明確注入 prompt,並以產生與修復雙階段迭代流程產出可執行測試。
深度分析
本研究針對大型語言模型在 Azure SDK 使用上的正確性提出 ACE‑Bench,一種免執行、快速判定通過與否的基準。它將官方文件範例轉為自足任務,透過正規表達式與 LLM 評審檢查 API 使用與工作流,降低測試成本並提升可重現性。實驗顯示多模型在檢索增強下表現提升,且不同模型差異顯著。