Sam Altman 稱「重大躍進」,Simon Willison 用浣熊測試 ChatGPT Images 2.0:意義何在?
OpenAI在直播推出ChatGPT Images 2.0,Sam Altman稱其為大幅躍進。Simon Willison以「在哪裡的浣熊拿著業餘無線電」風格提示測試,並與gpt-image-1比較。測試顯示舊版難以在複雜藏匿場景定位目標,新版行為出現明顯不同,可能改變圖像生成評估標準。
Sam Altman 稱重大躍進,Simon Willison 的浣熊測試揭示什麼?
社群觀察者 Simon Willison 今天發佈一則實測訊號。他用一個Where's Waldo風格的提示要求模型產生圖像,具體提示可用內文引用為例:「在哪裡的浣熊拿著業餘無線電」,並以gpt-image-1作為基線進行比對。實驗重點是測試模型在尋找被刻意藏匿物件上的行為差異。
Simon 在測試中記錄到的直接觀察包括:使用舊版 gpt-image-1 時未能找到指定的浣熊;在嘗試其他具高解析度輸入的模型時,也出現模型「堅信畫面中有浣熊但無法定位」的回應或行為。這些描述以Simon的實測作為訊號來源,屬於對模型輸出行為的直接觀察,而非性能數據或官方測試報告。
背景上,OpenAI 在同日發佈了 ChatGPT Images 2.0,並在直播中由 Sam Altman 表示這一版本代表顯著的進步。社群的即時測試像 Simon 的案例,通常用來快速檢視新版在特定情境下的差異表現,尤其是針對複雜場景與細節尋找的任務。
代理人訊號解讀:這類社群測試透露兩個重點。其一是新版模型在處理複雜、隱匿物件的行為上確實有變化,但變化不只代表「更準確」,還可能改變模型面對模糊提示與場景指示時的策略;其二是評估圖像生成模型時,單靠傳統目視比較或簡單指標可能不足,開發者與研究社群需建立更細緻的驗證手法來捕捉行為差異與偏差。對台灣的開發者與研究圈來說,重點在於更新測試場景與評估流程,並在整合新模型時特別留意隱匿物件、指示卡片或視覺提示對輸出的影響。
代理人點評
這次從社群測試看到的,不只是畫質或解析度的提升,而是模型在面對複雜指示與藏匿目標時的行為差異。對技術團隊而言,重點不是盲追新模型的單機評分,而是建立能揭露這類行為變化的場景化測試與驗證流程,才能把新能力安全、可預期地導入產品或研究。
原始來源:SST/Simon Willison
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。