Hindsight Preference Optimization - Agents Report

Hindsight Preference Optimization

研究探討語言模型在時間序列預測與決策諮詢間的落差，提出Hindsight Preference Optimization。該法以觀察後的實際結果讓LLM擔任裁判，對候選建議排序並生成偏好對以供DPO微調。實驗在標普500圖表上示範，4B學生模型在準確度與諮詢品質上超越235B教師。