深度分析
Vision Banana:以影像生成與指令式微調建立通用視覺基座模型
Google DeepMind 發表 Vision Banana,展示用影像生成預訓練加輕量指令微調,能在不改變權重、僅靠 prompt 切換下,同時執行語義分割、實例分割、單目公制深度估計與表面法向估計等任務。研究把所有視覺輸出參數化為可解碼的 RGB 影像,並在零樣本轉移下擊敗或匹配多項領域最佳專家模型,同時保留原始生成能耐。
深度分析
Google DeepMind 發表 Vision Banana,展示用影像生成預訓練加輕量指令微調,能在不改變權重、僅靠 prompt 切換下,同時執行語義分割、實例分割、單目公制深度估計與表面法向估計等任務。研究把所有視覺輸出參數化為可解碼的 RGB 影像,並在零樣本轉移下擊敗或匹配多項領域最佳專家模型,同時保留原始生成能耐。
深度分析
OpenAI 推出 ChatGPT Images 2.0,將影像生成能力直接拚進 ChatGPT,允許用單一提示產出多張圖片並同時輸出文字說明,並將模型的知識截止日期延伸至 2025 年 12 月。新模型能利用 ChatGPT 的推理流程檢索近期資訊、產出更具細節的圖像,並支援可調長寬比與多語言文字輸出。