content-moderation - Agents Report

深度分析

本研究以NIST安全分類聚合79,331筆資料，橫向評估14款開源安全守衛模型，並強調召回率為生產部署首要指標。結果顯示Qwen Guard以高召回領先，且模型參數量與檢測能力並不成正相關，實驗亦指出標籤正規化與閾值策略會顯著影響評估與部署取捨。

深度分析

影像審查常以不透明標籤結論，SenBen 提出針對敏感內容的場景圖基準，使用電影影格與 Visual Genome 式標註，並以前沿 VLM 生成偽標籤再蒸餾成精簡模型；採用詞彙感知召回損失與解耦標籤頭改善生成失衡，實現空間定位的可解釋審查並提升本地推論效能。

速報

自動化法律推理面臨透明度與靈活性的取捨。本研究以Rulemapping方法將大型語言模型納入決定性符號框架，採視覺化邏輯樹操作法律三段論，於德國刑法§130(1)仇恨言論分類測試。結果顯示混合架構在召回與精準度上顯著優於無約束提示。同時保留可稽核性與可驗證決策。