深度分析 BTF-2:以離線封存語料與 ReAct 代理人評估戰略推理能力 本研究建立BTF-2離線基準以還原問題發生時可得資訊。透過代理人自動搜索、閱讀與完整推理軌跡,比較離線與現場網路基準並量化微小Brier差異。結果指出改良預測器準確度較最強前沿代理提高0.011Brier,關鍵在於更完整的事前失效分析與盲點修正。