Direct Preference Optimization (DPO)

深度分析

行為日誌含豐富卻雜亂的訊息。研究提出階層化多重人物歸納框架，先將日誌壓縮為意圖記憶，再以聚類標註生成多個證據為本的人物。以凝聚性、對齊與真實性作為品質準則，結果人物更一致並提升未來互動預測。在多個服務日誌與公開資料集上測試，顯示壓縮後的人物仍能保留行為核心訊號。

Hindsight Preference Optimization

研究探討語言模型在時間序列預測與決策諮詢間的落差，提出Hindsight Preference Optimization。該法以觀察後的實際結果讓LLM擔任裁判，對候選建議排序並生成偏好對以供DPO微調。實驗在標普500圖表上示範，4B學生模型在準確度與諮詢品質上超越235B教師。