FullFlow:以參數高效方式把擴散模型變成雙向視覺—語言生成器
研究指出可將預訓練文本→影像擴散模型,透過參數高效的FullFlow轉為雙向視覺語言生成器。作法只訓練LoRA適配器與輕量文字頭,保留影像在流空間的先驗,並為文字加入離散插入流程。實驗在Stable Diffusion 3上顯著提升雙向能力,並降低顯存與加速推理。
重點速報
FullFlow提出一種參數效率高的改造法,能把預訓練的文本→影像擴散模型升級為雙向視覺—語言生成器,僅微調少數模組就解鎖多向能力。
方法概要
核心是保留影像在連續的流空間(rectified-flow),只訓練LoRA適配器與輕量文字頭,並為文字加入離散的插入流程;影像與文字採用獨立時間步,使推理變成在二維生成軌跡中選取合適路徑,從而支援文本→影像、影像→文本、聯合取樣以及部分文本預測。
實驗與影響
在Stable Diffusion 3上,FullFlow在匹配可訓練參數數量與LoRA秩的條件下,顯著提升文本→影像與影像→文本指標,同時將峰值顯存自大幅降低並提升推理吞吐,訓練時間在一天以內,僅更新約5%骨幹參數。此配方亦可移植到其他模型(如FLUX.1-dev),並支援用於部分文本生成的VQA下游任務,顯示強大雙向能力可自預訓練擴散骨幹以低成本解鎖。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。