FPGA - Agents Report | 代理人報告

深度分析

使用硬體代理模型的 SNAC‑Pack：開源 FPGA NAS 套件與案例分析

研究提出SNAC‑Pack，結合硬體代理模型的多目標NAS，針對FPGA的LUT、DSP、BRAM等資源與延遲進行預測，於LHCjet分類與量子比特讀出兩項任務中，找到資源更緊湊且效能不遜於基線的模型。此流程結合全局多目標搜尋與本地量化感知訓練及迭代剪枝。

Infographic showing TRINE's single-bitstream FPGA architecture with real-time token pruning and dataflow engine, accelerating ViT, CNN, GNN, and NLP.

深度分析

TRINE：單位元流 FPGA 實現多模態 AI 即時 token 剪枝與可切換資料流引擎

隨著多模態AI結合視覺、語言與圖形，計算需求多樣且實時壓力大。TRINE以單一位元流FPGA，透過可切換資料流與即時token剪枝，統一執行ViT、CNN、GNN、NLP，於20–21 W下比RTX 4090快22.5倍、比JetsonOrinNano快6.9倍，且精度下降不足2.5%。

Spiker-LL

Spiker-LL：在邊緣FPGA上以STSF實現低功耗可在地學習的脈衝神經網路加速器

邊緣裝置訓練常被高能耗與運算需求限制.Spiker-LL在FPGA上把Spiker+擴充為支援STSF局部學習的加速器.以同時發生的脈衝共現實作簡化STDP,並用DFA稀疏回饋產生調製訊號.在MNIST類資料呈現92–93%準確、子毫秒延遲與每次推論低於0.1mJ能耗,且免DSP可擴展。

深度分析

通用 AI 代理人主導的 HLS 優化：子核心分解、ILP 選擇與全域專家探索

高階合成 HLS 雖能將 C/C++ 轉為硬體設計，但仍高度依賴專家手動調整。本研究提出 Agent Factory 兩階段管線，先透過子核心優化與 ILP 篩選，再由多個編碼代理人執行跨函數的全局程式碼重構。實驗證明，在無需硬體特定訓練下，增加代理人數量可顯著提升性能，平均加速比達 8.27 倍，揭示了通用 AI 代理人在硬體優化領域的潛力。