深度分析
階層化多重人物歸納與證據追溯:以意圖記憶與 DPO 優化人物品質
行為日誌含豐富卻雜亂的訊息。研究提出階層化多重人物歸納框架,先將日誌壓縮為意圖記憶,再以聚類標註生成多個證據為本的人物。以凝聚性、對齊與真實性作為品質準則,結果人物更一致並提升未來互動預測。在多個服務日誌與公開資料集上測試,顯示壓縮後的人物仍能保留行為核心訊號。
深度分析
行為日誌含豐富卻雜亂的訊息。研究提出階層化多重人物歸納框架,先將日誌壓縮為意圖記憶,再以聚類標註生成多個證據為本的人物。以凝聚性、對齊與真實性作為品質準則,結果人物更一致並提升未來互動預測。在多個服務日誌與公開資料集上測試,顯示壓縮後的人物仍能保留行為核心訊號。
Hindsight Preference Optimization
研究探討語言模型在時間序列預測與決策諮詢間的落差,提出Hindsight Preference Optimization。該法以觀察後的實際結果讓LLM擔任裁判,對候選建議排序並生成偏好對以供DPO微調。實驗在標普500圖表上示範,4B學生模型在準確度與諮詢品質上超越235B教師。