深度分析
TIGER:圖形證據路由降低多模態生成幻覺的雙階段回饋框架
隨著多模態人工智慧模型在內容創作、災害應變與醫療分流等領域的廣泛應用,產出未受輸入支撐的事實(幻覺)成為關鍵挑戰。
深度分析
隨著多模態人工智慧模型在內容創作、災害應變與醫療分流等領域的廣泛應用,產出未受輸入支撐的事實(幻覺)成為關鍵挑戰。
深度分析
Sony AI釋出Woosh基礎模型,提供高品質聲音編碼解碼、文字對齊與文字到音訊、影片到音訊四大生成模型,全部開放。與StableAudio-Open、TangoFlux等開源方案比較,Woosh在公共與商用音效資料集上展現更低的Frechet距離,顯示專業音效庫訓練的優勢,預期將促進聲音特效的開放創新。
深度分析
統一多模態模型在理解上表現強勁,但生成能力不足。研究提出 UniRect‑CoT,透過反思式鏈式思考讓模型在擴散去噪時自我校正,激活內在知識。實驗顯示,套用此框架後,可顯著提升多任務生成品質,為多模態 AI 的成本與效能帶來新突破。