AI 風險評估 - Agents Report

深度分析

隨著大型語言模型深入日常資訊取得，研究者提出AuAu基準以量測模型的威權傾向，結合心理測驗、情境劇本與實際使用者提問三種評估方式。測試17款跨國模型皆顯示不容忽視的威權回應率，且簡易系統提示即可大幅放大此傾向，凸顯持續審核的必要性，以免影響民主價值觀。

深度分析

隨著語言模型代理人依賴可安裝技能，研究者提出 STARS 系統結合靜態先驗與請求條件化風險模型，於 SIA‑Bench 基準上提升高風險 AUPRC 至 0.439，證明即時審計在呼叫時的風險分流最具價值。

深度分析

傳統安全基準聚焦廣度，忽略重複提示的風險。研究提出加速提示壓力測試(APST)，以多次抽樣、溫度變化與提示擾動，統計失敗機率。結果顯示單次評分掩蓋模型在持續使用下的可靠性差異。

OpenAI

OpenAI 收購 AI 個人理財新創 Hiro，該公司以金融數學為核心，提供即時驗證與多情境模擬。收購為 acquihire，約十名員工加入 OpenAI，顯示其在財務 AI 領域的布局與擴張。