政策推理 - Agents Report

深度分析

研究指出平台內容審核必須將圖文證據與政策條件一併評估。RuleSafe-VL把平台條款拆成93項原子規則與92種關係，構建2166個圖文案例，並以四項診斷任務檢驗模型能否啟動規則、還原規則互動、判定證據是否足夠及在補足情境後得出結果。研究顯示模型在規則關係還原與決策充分性上仍有顯著缺口。