深度分析
TRINE:單位元流 FPGA 實現多模態 AI 即時 token 剪枝與可切換資料流引擎
隨著多模態AI結合視覺、語言與圖形,計算需求多樣且實時壓力大。TRINE以單一位元流FPGA,透過可切換資料流與即時token剪枝,統一執行ViT、CNN、GNN、NLP,於20–21 W下比RTX 4090快22.5倍、比JetsonOrinNano快6.9倍,且精度下降不足2.5%。
深度分析
隨著多模態AI結合視覺、語言與圖形,計算需求多樣且實時壓力大。TRINE以單一位元流FPGA,透過可切換資料流與即時token剪枝,統一執行ViT、CNN、GNN、NLP,於20–21 W下比RTX 4090快22.5倍、比JetsonOrinNano快6.9倍,且精度下降不足2.5%。
Spiker-LL
邊緣裝置訓練常被高能耗與運算需求限制.Spiker-LL在FPGA上把Spiker+擴充為支援STSF局部學習的加速器.以同時發生的脈衝共現實作簡化STDP,並用DFA稀疏回饋產生調製訊號.在MNIST類資料呈現92–93%準確、子毫秒延遲與每次推論低於0.1mJ能耗,且免DSP可擴展。
深度分析
高階合成 HLS 雖能將 C/C++ 轉為硬體設計,但仍高度依賴專家手動調整。本研究提出 Agent Factory 兩階段管線,先透過子核心優化與 ILP 篩選,再由多個編碼代理人執行跨函數的全局程式碼重構。實驗證明,在無需硬體特定訓練下,增加代理人數量可顯著提升性能,平均加速比達 8.27 倍,揭示了通用 AI 代理人在硬體優化領域的潛力。