深度分析 TaskGround:Ground–Infer–Execute 框架將場景圖切片轉為可執行技能序列 家庭實境中智能代理面臨完整場景與口語需求的推理挑戰。本文提出TaskGround,採Ground–Infer–Execute流程先切出任務相關場景片段,再推理可執行任務結構並編譯為技能層級動作序列。實驗在FullHome評測集上展示顯著提升,使緊湊開源模型在成本下競爭性提高。