深度分析
結構化不確定性導向的 LLM 代理人澄清機制與實驗驗證
LLM 代理人在工具呼叫時常因指令模糊導致失敗。研究者以結構化不確定性和 EVPI 量化澄清問題價值,並加入成本模型避免冗餘提問。實驗顯示,SAGE-Agent 提升任務覆蓋 7%~39%,澄清次數減半以上,訓練效果亦顯著提升。
深度分析
LLM 代理人在工具呼叫時常因指令模糊導致失敗。研究者以結構化不確定性和 EVPI 量化澄清問題價值,並加入成本模型避免冗餘提問。實驗顯示,SAGE-Agent 提升任務覆蓋 7%~39%,澄清次數減半以上,訓練效果亦顯著提升。
深度分析
在雲端技術支援領域,SkillForge 以領域知識庫和歷史票據為基礎生成技能,並透過失敗分析、技能診斷與優化三階段自動迭代。實驗證明此自演化循環可持續提升技能品質,甚至超越手工專家。
大型語言模型
研究針對大型語言模型在航空安全領域的推理能力提出基準。PilotBench 以 708 筆真實飛行軌跡與 34 通道遙測,衡量模型在六至九大飛行階段的預測與安全合規。結果顯示傳統預測器精度較高,LLM 在指令遵循上表現佳,但在高負荷階段精度下降,突顯混合架構的需求。