深度分析 DriftBench:評估多輪 LLM 中的 knows‑but‑violates (KBV) 與約束遵守脫節 多輪互動是大型語言模型常用場景。本文提出DriftBench來評估多輪構思中對硬性約束的遵守情況,透過受控brief、跨模型比較與自動化評分量化約束漂移與複雜度膨脹。結果顯示模型經常能準確重述約束卻仍違規,且違規率在模型間差異顯著。這挑戰現有評估實務