FullFlow:以參數高效方式把擴散模型變成雙向視覺—語言生成器

研究指出可將預訓練文本→影像擴散模型,透過參數高效的FullFlow轉為雙向視覺語言生成器。作法只訓練LoRA適配器與輕量文字頭,保留影像在流空間的先驗,並為文字加入離散插入流程。實驗在Stable Diffusion 3上顯著提升雙向能力,並降低顯存與加速推理。

全流 雙向視覺語言流模型

重點速報

FullFlow提出一種參數效率高的改造法,能把預訓練的文本→影像擴散模型升級為雙向視覺—語言生成器,僅微調少數模組就解鎖多向能力。

方法概要

核心是保留影像在連續的流空間(rectified-flow),只訓練LoRA適配器與輕量文字頭,並為文字加入離散的插入流程;影像與文字採用獨立時間步,使推理變成在二維生成軌跡中選取合適路徑,從而支援文本→影像、影像→文本、聯合取樣以及部分文本預測。

實驗與影響

在Stable Diffusion 3上,FullFlow在匹配可訓練參數數量與LoRA秩的條件下,顯著提升文本→影像與影像→文本指標,同時將峰值顯存自大幅降低並提升推理吞吐,訓練時間在一天以內,僅更新約5%骨幹參數。此配方亦可移植到其他模型(如FLUX.1-dev),並支援用於部分文本生成的VQA下游任務,顯示強大雙向能力可自預訓練擴散骨幹以低成本解鎖。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more