像素空間訓練 - Agents Report

深度分析

PRX 第三部：24 小時完成文字生成影像模型訓練的全流程

在算力成本下降的背景下，Photoroom 以 32 顆 H200 GPU 於 24 小時內完成文字生成影像模型訓練。核心做法包括像素空間 X‑prediction、感知損失與 TREAD token routing 的結合，以及 REPA‑DINOv3 表徵對齊。實驗證明，在 1,500 美元預算下可得到可用模型，顯示快速低成本訓練的可行性。