深度分析 Taiji 結合 Pareto Optimal Policy Optimization 與 QwQ‑32B 的工業級 LLM 增強推薦框架 隨著大型語言模型與推薦系統深度融合,Taiji 以逆向推理產生高品質 CoT 並透過 POPO 動態調整語意與偏好獎勵,框架包含資料建構、推理啟動、LLM‑推薦協作與線上排序四大模組,實驗顯示其在快手廣告平台提升 2.83% ADVV 與 3.30% 營收,支援超過 4 億日活使用者。