深度分析
AMMA:以HBM-PNM驅動的記憶為中心多晶片組,降低長上下文注意力延遲
在長上下文推理成為瓶頸下,AMMA提出以記憶為中心的多晶片組架構,將GPU計算晶片換成具PNM能力的HBM立方體,內建邏輯die與高頻D2D連結。設計包含專為HBM頻寬優化的微架構、兩層混合平行化與重排的集合通訊流程,以大幅降低跨晶片傳輸延遲。該方案利用HBM4以至更先進製程上的邏輯die實作PNM微架構,將16顆HBM立方體以片上D2D高速連接形成單一晶片並重構集合通訊以降低同步成本。評估顯示,AMMA在注意力延遲與能耗上分別優於現有高階GPU。