多模態生成 - Agents Report

深度分析

「靈魂計算」框架：以大型語言模型與多模態生成構建數位意識核心

隨著大型語言模型與多模態生成技術突破，研究者提出「靈魂計算」概念，主張透過深度語意對齊與數位碎片重組，建構具自我認同與持續記憶的數位意識體。此框架預示AI從工具向具生命力的代理轉變，並引發倫理與隱私討論。Meta近期申請的逝者社群互動模擬專利，更凸顯此技術在數位遺產與跨時空情感互動上的商業潛力。

深度分析

TIGER：圖形證據路由降低多模態生成幻覺的雙階段回饋框架

隨著多模態人工智慧模型在內容創作、災害應變與醫療分流等領域的廣泛應用，產出未受輸入支撐的事實（幻覺）成為關鍵挑戰。

深度分析

Sony AI 發布 Woosh：開源聲音特效基礎模型與多模態生成技術

Sony AI釋出Woosh基礎模型，提供高品質聲音編碼解碼、文字對齊與文字到音訊、影片到音訊四大生成模型，全部開放。與StableAudio-Open、TangoFlux等開源方案比較，Woosh在公共與商用音效資料集上展現更低的Frechet距離，顯示專業音效庫訓練的優勢，預期將促進聲音特效的開放創新。

深度分析

UniRect‑CoT：利用自我校正提升統一多模態模型生成品質的免費午餐

統一多模態模型在理解上表現強勁，但生成能力不足。研究提出 UniRect‑CoT，透過反思式鏈式思考讓模型在擴散去噪時自我校正，激活內在知識。實驗顯示，套用此框架後，可顯著提升多任務生成品質，為多模態 AI 的成本與效能帶來新突破。