標註一致性 - Agents Report

憲法式規範

內容審查標註需明確穩定定義。本研究提出以每類別憲法式規範結合前沿大型語言模型，由模型依規範判讀對話並生成黃金標籤，並以意圖與內容兩軸獨立評分。實驗顯示此法大幅降低跨模型不一致率。評估以HarmBench與WildChat資料集比較人類與多家前沿模型之標註一致性。