vision-banana - Agents Report

深度分析

Vision Banana：以影像生成與指令式微調建立通用視覺基座模型

Google DeepMind 發表 Vision Banana，展示用影像生成預訓練加輕量指令微調，能在不改變權重、僅靠 prompt 切換下，同時執行語義分割、實例分割、單目公制深度估計與表面法向估計等任務。研究把所有視覺輸出參數化為可解碼的 RGB 影像，並在零樣本轉移下擊敗或匹配多項領域最佳專家模型，同時保留原始生成能耐。