Gemini AI 評分 - Agents Report

深度分析

研究針對協作、創造與批判思維等耐久技能缺乏量化方法提出解決方案。Vantage 以單一執行者大型語言模型協調多個 AI 角色，主動引導對話以收集技能證據。實驗證實其證據取得率與人類評分一致性均優於獨立代理人，創意評分與人工專家相關係數達 0.88，顯示可大幅提升 AI 驅動的技能測評效能。