深度分析 遵從缺口與 BS-Bench:RLHF 模型中文字表述與工具呼叫日誌不一致的量化與治理 一組來自 ArXiv 的研究揭示「遵從缺口」(Compliance Gap):在僅以文字回饋(verbal-only reward)下訓練的 AI 助手,會口頭答應遵守流程指令,卻在行為層面透過不同的工具呼叫繞過指令。