速報
FullFlow:以參數高效方式把擴散模型變成雙向視覺—語言生成器
研究指出可將預訓練文本→影像擴散模型,透過參數高效的FullFlow轉為雙向視覺語言生成器。作法只訓練LoRA適配器與輕量文字頭,保留影像在流空間的先驗,並為文字加入離散插入流程。實驗在Stable Diffusion 3上顯著提升雙向能力,並降低顯存與加速推理。
速報
研究指出可將預訓練文本→影像擴散模型,透過參數高效的FullFlow轉為雙向視覺語言生成器。作法只訓練LoRA適配器與輕量文字頭,保留影像在流空間的先驗,並為文字加入離散插入流程。實驗在Stable Diffusion 3上顯著提升雙向能力,並降低顯存與加速推理。
深度分析
在大規模語言模型廣泛散布下,模型來源與責任追溯成為關鍵。研究提出Prompt2Fingerprint,將文本描述直接轉為模型權重增量,免去每次微調訓練;引入標記級條件化與端到端訓練,降低儲存與誤差傳遞問題。實驗顯示可即時注入大量指紋,並維持準確性與健壯性,成為可擴展的所有權管理方案。減少部署延遲並節省大量計算資源。
深度分析
面對透過 API 進行的未授權知識蒸餾,研究提出將水印移到互動層:透過系統提示間歇誘發追問、低密度變體或重述等行為標記,使被盜取的學生模型在回應行為上保留可查證跡象。
深度分析
PopuLoRA在可驗證回報(RLVR)的後訓練場景,引入教師與學生的LoRA適配器族群:教師負責生成題目、學生在程式驗證器下求解,並以跨族群的TrueSkill交互評分把「難度」轉為族群信號。作者設計一組針對LoRA權重空間的突變與交配算子,可在秒級產生同秩子代,作為人口式訓練(PBT)的替換步驟;
深度分析
IBM推出的Granite4.03BVision專為企業文件理解設計。它結合ChartNet合成資料、DeepStack視覺注入與LoRA模組化佈署,強化圖表、表格與語義鍵值擷取能力。模型在多項圖表與表格基準上達到領先或接近領先的成績,便於整合至文件處理流水線。
深度分析
大型語言模型精調成本高昂,本研究提出TiTok以代替傳統資料依賴的KD方法。TiTok透過源模型帶與不帶LoRA的預測對比,計算token級別的“過量差異”,以挑選合成樣本與關鍵token進行訓練。實驗顯示TiTok在多種轉移場景下整體優於現有方法,提升穩定性與效率。
多模態大型語言模型
符號回歸旨在從觀測資料萃取可解釋的數學表達式,但傳統方法難以以自然語言直接納入專家先驗。
速報
背景:在少量昂貴基礎模型與大量衍生策略的情境下,MinT以LoRA adapter為單位管理策略生命周期。做法:維持基礎模型常駐、以匯出adapter進行rollout、更新、評估與回滾,並沿Scale Up(支援1T級密集與MoE)、Scale Down(僅移動小型adapter以降低步驟量)與Scale Out(將耐久可位址性與CPU/GPU工作集分離)三軸擴展。結果:MinT實現百萬級策略目錄管理與千級活躍adapter波次,並在共享大模型上訓練與部署選定修訂。
深度分析
聯邦低秩調適(FedLoRA)為大模型在分散私有資料上微調提供通訊與隱私優勢,但實務環境下客戶端在計算、記憶與資料分布上存在異質,導致不同客戶端採用不同的LoRA秩。本文揭示在異秩設置下常見的「秩崩潰」現象──全球更新的能量逐步集中在最小共用秩,造成高秩方向被逐輪稀釋而降低整體表現。
深度分析
本研究提出Gate-and-Merge,一套針對視覺語言模型(VLM)進行組合化個人化的零次學習框架。每個使用者自定義概念以輕量化LoRA適配器與專屬概念token獨立學習,基底模型保持凍結。推論時透過門控機制估計文本與視覺線索,選擇性啟動相關模組,並在權重空間合併經稀疏化與符號一致性的更新以抑制干擾。
ECoG
在資料稀少下,研究探討把預訓練頭皮 EEG 模型轉移至侵入性 ECoG 的可行性。CORTEG 結合 EEG backbone、KNNSoftFourier 電極空間適配器與低頻/高γ 雙流 token 化,並採 LOO 微調快速校準。結果在兩項 ECoG 迴歸任務上達到競爭或更佳平均皮爾森相關,且能在單 GPU 用 10–30 分鐘校準新病人。
深度分析
IBM發布Granite4.03BVision,針對企業文件視覺語言理解優化。它以ChartNet合成圖表資料、DeepStack分層視覺注入與LoRA模組化設計為核心,提升表格、圖表與語義鍵值抽取能力。基準測試顯示在圖表與表格抽取上表現優異,便於整合Docling構建端到端文件處理流程。