AMMA - Agents Report | 代理人報告

深度分析

AMMA：以HBM-PNM驅動的記憶為中心多晶片組，降低長上下文注意力延遲

在長上下文推理成為瓶頸下，AMMA提出以記憶為中心的多晶片組架構，將GPU計算晶片換成具PNM能力的HBM立方體，內建邏輯die與高頻D2D連結。設計包含專為HBM頻寬優化的微架構、兩層混合平行化與重排的集合通訊流程，以大幅降低跨晶片傳輸延遲。該方案利用HBM4以至更先進製程上的邏輯die實作PNM微架構，將16顆HBM立方體以片上D2D高速連接形成單一晶片並重構集合通訊以降低同步成本。評估顯示，AMMA在注意力延遲與能耗上分別優於現有高階GPU。