深度分析
Transformer 內核揭秘:OLS 為單層線性 Transformer 的特例
研究指出 Transformer 的注意力機制在特定參數下可被視為普通最小平方法的特例,透過譜分解將前向傳播等價於 OLS 閉式投影,證實注意力一次前向即可求解,且揭示模型內部的慢速與快速記憶解耦,預示其記憶容量可從線性提升至指數。
深度分析
研究指出 Transformer 的注意力機制在特定參數下可被視為普通最小平方法的特例,透過譜分解將前向傳播等價於 OLS 閉式投影,證實注意力一次前向即可求解,且揭示模型內部的慢速與快速記憶解耦,預示其記憶容量可從線性提升至指數。
深度分析
本研究探討記憶對LLM代理人在社會粒子群模型中合作行為的影響。以Gemini‑2.0‑Flash與Gemma‑3:4b替換規則代理人,測試不同記憶長度與大五人格分數。結果顯示Gemini短記憶即抑制合作,長記憶導致散佈背叛;Gemma則相反,長記憶促進合作並形成密集叢集。