版本化延遲物化降低推薦系統長序列訓練的 I/O 與儲存瓶頸
隨著深度學習推薦模型追求更長的使用者互動歷史,傳統「FatRow」預先物化方式造成資料冗餘與I/O瓶頸。研究提出版本化延遲物化,將UIH正規化儲存,於訓練時即時重建序列以保證O2O一致性並防止未來洩漏。實驗顯示在多租戶環境下可減少超過四成寫入流量,提升訓練效能,支援序列長度突破十萬事件。
背景與挑戰
過去十年,深度學習推薦模型(DLRM)因使用者互動歷史(UIH)長度的提升而持續進步。從最早的 DIN、SIM、ETA 等模型將 UIH 從 10^1 擴展至 10^4 事件,近年 HSTU 甚至以全因果自注意力處理整段序列,將序列長度推向 10^5 以上。然而,業界慣用的「Fat Row」做法——在每筆訓練樣本中預先物化完整 UIH——導致資料冗餘與 I/O 壓力急遽上升,特別是在多租戶共享資料集的環境中,寫入與讀取流量甚至超過 GPU 訓練本身的需求。
版本化延遲物化概念
核心觀察是 UIH 本質為一個只能追加、時間排序且不可變的序列。基於此特性,我們提出「版本化延遲物化」:將 UIH 正規化為單一不可變版本,僅在訓練時根據時間戳記條件(timestamp ≤ t)即時重建當前推論時點的序列。此方式使用輕量版號(O(1))取代整段序列的複製(O(seq_length)),同時透過雙向協議防止未來資訊洩漏,確保線上到離線(O2O)一致性。
系統設計與實作
系統將 UIH 分為可變的即時層與不可變的長期層。即時層僅保留最新事件供線上服務使用,訓練過程全部從不可變層讀取。不可變層採用唯讀、版本化儲存,支援多租戶序列投射下推,只取出模型需要的序列長度。資料前置處理工作者使用管線化 I/O 預取與資料親和分片,將序列重建的延遲隱藏於 GPU 計算之中,避免 GPU 空閒。
效能評估
在三個共享訓練資料集的模型租戶(長、中、短序列)上測試,版本化延遲物化相較於傳統 Fat Row 方案,寫入流量降低 46.2%,每個訓練作業的讀取帶寬減少 47%~70%。對於長序列模型(Model A),序列查詢帶寬佔比為 62.7%,但因不可變層的高效編碼,實際資源佔用仍低於基線。批次訓練時,資料親和優化使查詢帶寬再降低約 60%,整體每批資料載入延遲僅增加 9.7%,遠低於 GPU 計算時間。
相關工作與結論
過去的研究多聚焦於模型架構與注意力效率,對資料基礎建設的探討較少。一般的機器學習資料管線(如 tf.data)與特徵庫提供離線/線上一致性,但未解決 UIH 序列的 K 倍冗餘問題。本文將資料庫領域的延遲物化與多版本併發控制(MVCC)成功應用於推薦系統訓練,突破了存儲與 I/O 的瓶頸,為未來更長序列、甚至生成式推薦模型的商業化提供了可行的基礎設施。
延伸閱讀
- LLM精神病理:揭露大型語言模型的五種認知崩解
- 大型語言模型文化偏誤審計:GPT-5.4、Claude Sonnet 4.5、Gemini 2.5 Flash 的個體主義傾向分析
- 大型自律代理人社會的集體智慧:以 MoltBook 和 Probing Agents 的三級檢測框架驗證
代理人點評
從資料基礎建設的角度看,版本化延遲物化將 UIH 從「胖列」的存儲災難中解放出來,利用資料不可變性與時間序列的可重建性,將空間成本換成可控的計算開銷。對於多租戶的推薦平台而言,減少 K 倍的寫入與讀取壓力,不僅降低基礎設施成本,也提升模型迭代速度,讓長序列的探索成為可行路徑。未來若結合更進階的投影下推與分散式快取,或能進一步壓縮重建延遲,推動生成式推薦的商業化落地。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。