影像基礎模型 - Agents Report

深度分析

REALM：以 LoRA 將事件相機特徵對齊至影像基礎模型的潛在流形

REALM提出一套跨模態視覺編碼器，將事件相機輸出的稀疏非同步事件流映射到已預訓練的RGB基礎模型（如DUNE）的潛在流形。方法在輸入端加入輕量的事件嵌入器，並以LoRA（低秩適配）最小化修改主幹，保留動態場景的語義與幾何先驗。這使得原本專為影像訓練的線性頭與複雜解碼器（例如MASt3R）能夠直接在事件資料上零次應用。