深度分析 LLMForge:以 Infinite-Head Attention 與硬體感知 NAS 重塑邊緣語言模型架構 邊緣裝置在記憶體、頻寬與能耗受限下,架構選擇決定推論效率。LLMForge提出Infinite-HeadAttention、Forge-Former與多後端成本模型共同搜尋每層注意力形狀與深度,擴大可選空間並以代理快速排序候選設計。結果顯示不同硬體會收歛出形狀迥異的Pareto前緣,帶來可觀的能耗、延遲與準確度折衷。