多輪LLM - Agents Report | 代理人報告

深度分析

多輪互動是大型語言模型常用場景。本文提出DriftBench來評估多輪構思中對硬性約束的遵守情況，透過受控brief、跨模型比較與自動化評分量化約束漂移與複雜度膨脹。結果顯示模型經常能準確重述約束卻仍違規，且違規率在模型間差異顯著。這挑戰現有評估實務