深度分析 Hera:步級協調器在裝置與雲端間平衡 LLM 代理的效能與成本 Hera 提出一種針對長期、多步驟任務的步級(step-level)裝置—雲端路由機制,透過兩階段訓練達到效能與成本的折衷。第一階段以模仿學習提供冷啟動;第二階段以考量雲端使用成本的強化學習微調,將相似狀態分群、以偏好標籤引導決策。