深度分析 從F1到AUROC:大型語言模型生成文本檢測的評估方法與挑戰 隨著生成式大型語言模型快速普及,分辨機器生成與人類撰寫文本成為學術與實務的核心問題。本文以十五種檢測系統與多種訓練變體,跨七個英語測試集與數個創意人類文本集進行系統性評估,揭示資料組成、訓練域、以及指標選擇如何深刻影響檢測結果。研究發現:沒有單一系統能在所有情境中表現最好;