VLM 評判

多模態評分規範推動RPO

深度分析

用可驗證多維 Rubrics 驅動 RPO：強化 VLM 驅動的多模態生成對齊

多模態生成系統常以單一數值或對比標籤表示人類偏好，導致判準被壓縮、可解釋性低且易遭報酬操弄。