深度分析 HWE-Bench:以倉儲級容器化驗證評估 LLM 代理在 Verilog/Chisel 硬體錯誤修復的能力 硬體設計的LLM評估長期侷限於元件級,HWE-Bench提出首個倉儲級且以容器執行驗證的硬體錯誤修復基準。它以真實PR還原417項修復實例,讓代理在完整專案與原生模擬流程中執行並驗證補丁。最佳代理整體修復率達70.7%,在小型核心專案超過90%,但在複雜SoC專案降至65%以下,顯示專案範圍與缺陷分布是主要難點。