文字生成影像 - Agents Report

深度分析

DiT‑ST：分割文字條件提升文字生成影像擴散模型效能

隨著文字生成影像模型普及，完整敘述常導致語意混淆。DiT‑ST 透過大型語言模型將說明拆解為分割句，並在去噪階段分層注入，提升語意原語表徵學習。實驗顯示此框架有效減輕 DiT 的完整文字理解缺陷，對模型效能與訓練成本產生正面影響。

深度分析

PromptEcho：利用凍結視覺語言模型的交叉熵獎勵提升文字生成影像的強化學習效能

研究針對文字生成影像模型的獎勵訊號不足問題提出解決方案。PromptEcho 透過凍結視覺語言模型計算影像與提示的 token 級交叉熵損失，無需人工標註或獎勵模型訓練，提供即時且高效的獎勵。實驗證明在多項基準測試中顯著提升模型的提示遵循能力，且獎勵品質隨 VLM 規模提升而提升。

文字生成影像

GLEaN：以肖像視覺化解釋文字生成影像偏見的公共理解方法

隨著文字生成影像模型影響大眾視覺媒體，研究者提出 GLEaN 以肖像方式視覺化模型偏見。該管線結合大規模生成、臉部特徵篩選與中位像素合成，產出易懂的代表肖像。實驗顯示 GLEaN 能重現已知偏見、揭露新關聯，且比傳統表格更省時。

深度分析

PRX 第三部：24 小時完成文字生成影像模型訓練的全流程

在算力成本下降的背景下，Photoroom 以 32 顆 H200 GPU 於 24 小時內完成文字生成影像模型訓練。核心做法包括像素空間 X‑prediction、感知損失與 TREAD token routing 的結合，以及 REPA‑DINOv3 表徵對齊。實驗證明，在 1,500 美元預算下可得到可用模型，顯示快速低成本訓練的可行性。