仇恨言論評估 - Agents Report

深度分析

LLM 驅動社交代理在新聞回覆中的仇恨言論與語意對齊實證評估

本研究檢視大型語言模型（LLM）生成的短回覆能否重現真實受眾對新聞的可量化特性。研究以 Hatemedia 基準為基礎，將5,631則新聞與58,555則真實回覆作為刺激，使用五款開源 LLM（包含 Mistral7B、Mistral24B、Llama8B、Qwen3、GPT-OSS）在兩種生成條件（原始模型與微調）下產生配對合成回覆。