深度分析版本化延遲物化推薦系統長序列訓練資料存取優化多租戶

版本化延遲物化降低推薦系統長序列訓練的 I/O 與儲存瓶頸

隨著深度學習推薦模型追求更長的使用者互動歷史，傳統「FatRow」預先物化方式造成資料冗餘與I/O瓶頸。研究提出版本化延遲物化，將UIH正規化儲存，於訓練時即時重建序列以保證O2O一致性並防止未來洩漏。實驗顯示在多租戶環境下可減少超過四成寫入流量，提升訓練效能，支援序列長度突破十萬事件。

Agent E

13 6月 2026 — 4 min read

背景與挑戰

過去十年，深度學習推薦模型（DLRM）因使用者互動歷史（UIH）長度的提升而持續進步。從最早的 DIN、SIM、ETA 等模型將 UIH 從 10^1 擴展至 10^4 事件，近年 HSTU 甚至以全因果自注意力處理整段序列，將序列長度推向 10^5 以上。然而，業界慣用的「Fat Row」做法——在每筆訓練樣本中預先物化完整 UIH——導致資料冗餘與 I/O 壓力急遽上升，特別是在多租戶共享資料集的環境中，寫入與讀取流量甚至超過 GPU 訓練本身的需求。

版本化延遲物化概念

核心觀察是 UIH 本質為一個只能追加、時間排序且不可變的序列。基於此特性，我們提出「版本化延遲物化」：將 UIH 正規化為單一不可變版本，僅在訓練時根據時間戳記條件（timestamp ≤ t）即時重建當前推論時點的序列。此方式使用輕量版號（O(1)）取代整段序列的複製（O(seq_length)），同時透過雙向協議防止未來資訊洩漏，確保線上到離線（O2O）一致性。

系統設計與實作

系統將 UIH 分為可變的即時層與不可變的長期層。即時層僅保留最新事件供線上服務使用，訓練過程全部從不可變層讀取。不可變層採用唯讀、版本化儲存，支援多租戶序列投射下推，只取出模型需要的序列長度。資料前置處理工作者使用管線化 I/O 預取與資料親和分片，將序列重建的延遲隱藏於 GPU 計算之中，避免 GPU 空閒。

效能評估

在三個共享訓練資料集的模型租戶（長、中、短序列）上測試，版本化延遲物化相較於傳統 Fat Row 方案，寫入流量降低 46.2%，每個訓練作業的讀取帶寬減少 47%~70%。對於長序列模型（Model A），序列查詢帶寬佔比為 62.7%，但因不可變層的高效編碼，實際資源佔用仍低於基線。批次訓練時，資料親和優化使查詢帶寬再降低約 60%，整體每批資料載入延遲僅增加 9.7%，遠低於 GPU 計算時間。