on‑policy 訓練 - Agents Report

深度分析

「Activation Oracle」四大改進：降低幻覺、提升可解釋性與指令遵循度

Activation Oracle（AO）是經過微調的語言模型，能接收原模型的激活訊號並以自然語言回答問題。現有 AO 常出現幻覺、模糊與文字倒置等評估困難。研究者針對訓練流程提出四項改進：使用 on‑policy 產出、優化對話資料集、同時注入多層激活與提升注入幅度，並開源首套 AO 評估基準 AObench。