深度分析 HEAT-24 實驗顯示:LLM 代理對提示框架(harness)敏感度呈非單調性 研究以HEAT-24基準測試六款大模型與三種提示框架(輕量、平衡、嚴格)。比較提示結構對可靠性、失敗類型與延遲的影響。結果顯示harness敏感度非單調,應依模型類型與指令微調。並提出六類失敗分類與分層選擇建議,強調指令調教質量比參數數量更關鍵。