深度分析 大型語言模型標註與活躍學習:反移民敵意偵測的實證比較 研究以德國 TikTok 政治評論測試 LLM 與人工標註在活躍學習中的效能。使用 GPT‑5.2 標註 25,974 筆,與 3,800 筆人工標註比較,發現兩者 F1 相近,但 LLM 模型偏向過度預測敵意,特別在議題模糊時差異明顯,顯示標註策略需依應用容錯度選擇。