LEAF:以事件增強的大型語言模型預測基準
研究團隊提出 LEAF,一個動態更新的事件增強預測基準,涵蓋未來事件機率、趨勢與時序預測等任務。LEAF 採用遞迴檢索代理系統,並結合雙代理交叉驗證,為預測任務提供相關且即時的輔助文本資訊。作者在多款專有與開放權重的大型語言模型上評估,結果顯示模型能從複雜事件中抽取訊號並提升預測表現;
LEAF:針對事件增強預測的動態基準
LEAF 是一個為真實世界、事件驅動預測量身打造的活性基準,包含未來事件機率、趨勢判斷與時序預測等任務。設計目的是在避免預訓練資料汙染的同時,評估大型語言模型在複雜情境下的預測能力。
方法與架構
此基準運作上採用遞迴檢索代理系統,透過多輪檢索匯集與任務相關的輔助文本;並以雙代理交叉驗證機制確認檢索結果的涵蓋性與可靠度。這套流程能動態整合新事件,使測試集合隨時間更新,維持與現實事件的緊密連結。
評估與發現
研究在多款專有與開放權重的大型語言模型上進行測試,觀察到模型能從複雜事件中抽取有用訊號,進而提升預測表現。以股票領域為例,模型在其自評為較可預測的個股上表現較佳,同時所收集的事件與目標標的之間呈現顯著相關性。
意義與展望
LEAF 提供一個必要且持續更新的測試場域,能幫助研究者追蹤事件驅動預測技術的進展,並促成不同模型與檢索策略的公平比較。未來此類基準在實務與學術上,都有助於把握大型語言模型在真實事件情境下的預測極限與適用範圍。
延伸閱讀
- FutureSim:以時序重播衡量AI代理的長期適應力
- Preping:以 Proposer‑Validator 架構在上線前構建代理程序性記憶
- Ego2World:從 HD-EPIC 註解編譯成可執行世界規則與代理信念圖
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。