大型語言模型 - Agents Report

深度分析

這篇研究評估大型語言模型（LLM）在套用維基百科「中立觀點」（NPOV）規範時的能力，分別測試偏見偵測與中性化改寫兩項任務。研究發現模型在偏見偵測上準確度不佳，但在改寫上能移除多數被編輯者刪除的描述詞，呈現高召回低精確的特性，且常同時做出文法或風格改動。