LLM‑as‑Judge - Agents Report

深度分析

研究探討自動代理在長程執行時的干預時機，利用 18 維情感動態引擎 HEART 評估四種觸發機制，發現狀態飽和陷阱使閾值觸發變成持續警示，且 LLM 判斷器成本高且精準度低。三位標註者對同一軌跡的干預點僅略高於機會，顯示干預時機本身可靠度低。因此，單一模型的即時干預仍具挑戰。