政策規範 - Agents Report

Infographic for the PReMISE framework showing its Discovery, Audit (structural, reliable, preference, adversarial), and Repair stages, detailing how it optimizes LLM scoring rubrics.

深度分析

政策規範驅動的 LLM 評分框架 PReMISE：發掘、審核與修正全解析

隨著大型語言模型評分員廣泛應用，評分結果高度依賴所使用的政策規範。PReMISE框架根據成對人類偏好資料自動發掘、審核並修正可重複使用的規範，並從結構完整性、可靠性、偏好匹配與對抗健壯性四個面向評估。實驗顯示，經過偏好排序與可靠性限制的修正後，評分正確率由65%提升至68.6%，同時降低了46%的被利用率。