REI-Bench:揭露含糊指稱對LLM機器人任務規劃的衝擊與情境覺察修正
研究指出人類指令含糊導致機器人任務規劃失效。本文提出以語用學建模的REI-Bench基準,模擬具上下文依賴的指稱表達。並採用任務導向的情境覺察,生成明確可執行指令以供規劃器使用。實驗顯示含糊指稱可使成功率下降高達36.9%,而任務導向情境覺察可顯著提升成功率並降低物件遺漏。
REI-Bench 揭示:含糊指稱會讓 LLM 兵敗如山倒,情境覺察能補救
研究指出,人類對機器人的指令常含有依賴語境的模糊指稱(referring expressions,REs),這類含糊會嚴重削弱以大型語言模型(LLM)為核心的任務規劃器。
作者建立首個以語用學為基礎的基準 REI-Bench,系統性模擬真實對話與環境中出現的含糊指稱,並分析其對規劃器的影響。實驗發現,含糊指稱會導致任務成功率顯著下降,且多數失敗源於規劃器漏掉應用的物件。
為了緩解此問題,研究提出「任務導向的情境覺察」方法,透過生成更清晰、針對任務的執行指令,讓規劃器能在現有提示策略(例如 aware prompts、chains of thought 與 in-context learning)之外,取得更穩定的表現。實驗顯示,此方法在面對含糊指稱時能顯著提升成功率並減少物件遺漏。
此工作指出,處理指稱含糊是讓機器人更友善於非專業使用者(例如長者與孩童)的一項關鍵步驟,對推動真實世界任務規劃的實用化具有實質貢獻。
延伸閱讀
- 可擴展貝式心智理論規劃器:分步貝式更新與弱→強模型協同
- LLM 支援規則→維修行動能力實測:規則到多選基準揭露脆弱點
- AssetOpsBench 2025 回顧:LLaMA‑3‑70B 基線下的多代理工業運維評測與盲測發現
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。