深度分析
STARS:即時技能呼叫審計提升代理系統安全性
隨著語言模型代理人依賴可安裝技能,研究者提出 STARS 系統結合靜態先驗與請求條件化風險模型,於 SIA‑Bench 基準上提升高風險 AUPRC 至 0.439,證明即時審計在呼叫時的風險分流最具價值。
深度分析
隨著語言模型代理人依賴可安裝技能,研究者提出 STARS 系統結合靜態先驗與請求條件化風險模型,於 SIA‑Bench 基準上提升高風險 AUPRC 至 0.439,證明即時審計在呼叫時的風險分流最具價值。
深度分析
傳統安全基準聚焦廣度,忽略重複提示的風險。研究提出加速提示壓力測試(APST),以多次抽樣、溫度變化與提示擾動,統計失敗機率。結果顯示單次評分掩蓋模型在持續使用下的可靠性差異。
OpenAI
OpenAI 收購 AI 個人理財新創 Hiro,該公司以金融數學為核心,提供即時驗證與多情境模擬。收購為 acquihire,約十名員工加入 OpenAI,顯示其在財務 AI 領域的布局與擴張。