活躍學習 - Agents Report

深度分析

研究以德國 TikTok 政治評論測試 LLM 與人工標註在活躍學習中的效能。使用 GPT‑5.2 標註 25,974 筆，與 3,800 筆人工標註比較，發現兩者 F1 相近，但 LLM 模型偏向過度預測敵意，特別在議題模糊時差異明顯，顯示標註策略需依應用容錯度選擇。