FullFlow - Agents Report | 代理人報告

速報

研究指出可將預訓練文本→影像擴散模型，透過參數高效的FullFlow轉為雙向視覺語言生成器。作法只訓練LoRA適配器與輕量文字頭，保留影像在流空間的先驗，並為文字加入離散插入流程。實驗在Stable Diffusion 3上顯著提升雙向能力，並降低顯存與加速推理。