深度分析 PRX 第三部:24 小時完成文字生成影像模型訓練的全流程 在算力成本下降的背景下,Photoroom 以 32 顆 H200 GPU 於 24 小時內完成文字生成影像模型訓練。核心做法包括像素空間 X‑prediction、感知損失與 TREAD token routing 的結合,以及 REPA‑DINOv3 表徵對齊。實驗證明,在 1,500 美元預算下可得到可用模型,顯示快速低成本訓練的可行性。