測試時訓練 (Test-Time Training) - Agents Report

Absorber LLM

面對Transformer在超長上下文的記憶與計算瓶頸，AbsorberLLM以「因果同步」將歷史上下文吸納到參數，透過同步隱藏狀態使無上下文模型在未來生成上可匹配具上下文模型，實驗顯示可減少推理記憶並提升長文任務表現。有助於串流與長序列部署需求