Hindsight Preference Optimization Hindsight Preference Optimization:以事後偏好信號(DPO)強化VLM於金融時間序列諮詢 研究探討語言模型在時間序列預測與決策諮詢間的落差,提出Hindsight Preference Optimization。該法以觀察後的實際結果讓LLM擔任裁判,對候選建議排序並生成偏好對以供DPO微調。實驗在標普500圖表上示範,4B學生模型在準確度與諮詢品質上超越235B教師。