Omnisapiens-7B 2.0:異質行為資料感知的社交智能基礎模型
社交智能 AI 面臨行為資料異質性帶來的學習不平衡。研究者以 Heterogeneity-Aware Relative Policy Optimization 重新調整樣本貢獻,實現幾何中心化與慣性平滑的優勢調節。Omnisapiens-7B 2.0 在十項任務與五組保留基準上皆創下最佳表現,提升最高達十二點零二百分比,顯示其在真實社會行為應用上的可靠性。
社交智能人工智慧需要在多樣的人類行為任務間進行推理,並能快速適應全新社會情境。然而,行為資料本身高度異質,包含不同模態與預測目標,導致訓練訊號在樣本間分布不均,形成學習動態失衡,現有模型難以穩定學習。
Omnisapiens-7B 2.0 的核心方法
為解決此問題,MIT 團隊開發了 Omnisapiens-7B 2.0,採用「異質感知相對策略最佳化」(Heterogeneity-Aware Relative Policy Optimization) 這項新型強化學習技術。該方法先估算每筆樣本對策略更新的貢獻,然後以此作為權重,透過幾何中心化與慣性平滑的優勢調整,將學習訊號重新平衡,使訓練過程更為穩定。
實驗結果與效能提升
Omnisapiens-7B 2.0 在 10 項行為任務上獲得最佳且最一致的表現,同時在五組保留基準測試中也達到最高分數,提升幅度最高分別為 +12.02% 與 +9.37%。此外,模型產出的推理軌跡更具一致性與可解釋性,提升了在真實世界行為應用中的可靠度。
開源與未來應用
研究團隊已將模型程式碼與訓練資源公開於 GitHub,供學術與產業界進一步探索與應用。
https://github.com/MIT-MI/human_behavior_atlas延伸閱讀
- 「ToolSense」:揭露參數化工具檢索在真實查詢下的性能缺口與內化指標
- 環境工程全景:大型語言模型代理的環境建模、合成與評估新框架
- T2‑GRPO:結合環境回合獎勵與軌跡獎勵的多回合強化學習框架於失智照護對話
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。