深度分析 RuleSafe-VL:以原子規則拆解的視覺語言模型政策推理診斷基準 研究指出平台內容審核必須將圖文證據與政策條件一併評估。RuleSafe-VL把平台條款拆成93項原子規則與92種關係,構建2166個圖文案例,並以四項診斷任務檢驗模型能否啟動規則、還原規則互動、判定證據是否足夠及在補足情境後得出結果。研究顯示模型在規則關係還原與決策充分性上仍有顯著缺口。