OracleProto:讓 LLM 預測成為可重現、可審計的評估框架

大型語言模型從靜態生成走向實務決策支援。OracleProto建構可重現評估框架,將已解事件還原為具時間界限的預測樣本,採用截止對齊、時間遮蔽與洩漏偵測等措施。實驗於FutureX-Past衍生資料集與六款模型上執行,將殘餘洩漏降至1%等級,並提供可審計的跨模型比較介面。

OracleProto LLM 可審計預測框架系統資料

OracleProto:把 LLM 預測能力變成可審計的評估工具

OracleProto 提出一套可重現的評估框架,針對大型語言模型的原生預測能力進行量化。此框架把已解事件重構為具時間界限的預測樣本,並在資料引入與答案判定上設置嚴格資訊邊界,以避免事後已知事實混淆評估結果。

主要做法包含:模型截止時間對齊的樣本准入、工具層時間遮蔽、內容層洩漏偵測、離散化答案規範,以及階層化評分機制。這些措施合力把外部資訊干擾降到極低水準,同時保留可重複審核的流程與輸出。

作者在從 FutureX-Past 衍生的資料集上,對六款當代大型模型進行實作驗證。實驗顯示 OracleProto 能在受控資訊邊界下區分預測品質、取樣穩定性與成本效率,並將殘餘洩漏抑制到約1%等級,明顯優於僅靠工具層時間過濾的做法。此框架將 LLM 預測評估從一次性驗證,轉為可審計、可重複且能用於下游微調與強化學習的資料層能力。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more