深度分析
HWE-Bench:以倉儲級容器化驗證評估 LLM 代理在 Verilog/Chisel 硬體錯誤修復的能力
硬體設計的LLM評估長期侷限於元件級,HWE-Bench提出首個倉儲級且以容器執行驗證的硬體錯誤修復基準。它以真實PR還原417項修復實例,讓代理在完整專案與原生模擬流程中執行並驗證補丁。最佳代理整體修復率達70.7%,在小型核心專案超過90%,但在複雜SoC專案降至65%以下,顯示專案範圍與缺陷分布是主要難點。
深度分析
硬體設計的LLM評估長期侷限於元件級,HWE-Bench提出首個倉儲級且以容器執行驗證的硬體錯誤修復基準。它以真實PR還原417項修復實例,讓代理在完整專案與原生模擬流程中執行並驗證補丁。最佳代理整體修復率達70.7%,在小型核心專案超過90%,但在複雜SoC專案降至65%以下,顯示專案範圍與缺陷分布是主要難點。
Verilog
硬體設計的安全檢測面臨規模與語意辨識的雙重挑戰。VeriCWEty 採用針對 Verilog 微調的解碼器型大型語言模型(LLM)所產生的向量嵌入,將 CWE(Common Weakness Enumeration)以向量形式編碼,結合投票式自動標註與梯度提升分類器,在模組層與行級同時進行弱點偵測與定位。