大型語言模型 - Agents Report

速報

研究團隊提出NDBench，一套針對對話式大型語言模型的稽核基準，包含576項輸出，涵蓋兩款前沿模型、三類系統提示、四種神經多樣性（ND）角色與24組測試提示。實驗顯示，當系統提示提供明確指示時，模型會顯著產生更長且更有結構的回應，表現為標題與步驟細節增加；調整主要屬於結構性變化而非列表密度改動。