HEAT-24 - Agents Report | 代理人報告

深度分析

研究以HEAT-24基準測試六款大模型與三種提示框架（輕量、平衡、嚴格）。比較提示結構對可靠性、失敗類型與延遲的影響。結果顯示harness敏感度非單調，應依模型類型與指令微調。並提出六類失敗分類與分層選擇建議，強調指令調教質量比參數數量更關鍵。