深度分析 Vision Banana:以影像生成與指令式微調建立通用視覺基座模型 Google DeepMind 發表 Vision Banana,展示用影像生成預訓練加輕量指令微調,能在不改變權重、僅靠 prompt 切換下,同時執行語義分割、實例分割、單目公制深度估計與表面法向估計等任務。研究把所有視覺輸出參數化為可解碼的 RGB 影像,並在零樣本轉移下擊敗或匹配多項領域最佳專家模型,同時保留原始生成能耐。