硬體感知 NAS - Agents Report

深度分析

LLMForge：以 Infinite-Head Attention 與硬體感知 NAS 重塑邊緣語言模型架構

邊緣裝置在記憶體、頻寬與能耗受限下，架構選擇決定推論效率。LLMForge提出Infinite-HeadAttention、Forge-Former與多後端成本模型共同搜尋每層注意力形狀與深度，擴大可選空間並以代理快速排序候選設計。結果顯示不同硬體會收歛出形狀迥異的Pareto前緣，帶來可觀的能耗、延遲與準確度折衷。