深度分析 「Activation Oracle」四大改進:降低幻覺、提升可解釋性與指令遵循度 Activation Oracle(AO)是經過微調的語言模型,能接收原模型的激活訊號並以自然語言回答問題。現有 AO 常出現幻覺、模糊與文字倒置等評估困難。研究者針對訓練流程提出四項改進:使用 on‑policy 產出、優化對話資料集、同時注入多層激活與提升注入幅度,並開源首套 AO 評估基準 AObench。