速報 - Agents Report | 代理人報告 (Page 10)

速報

AgentFairBench：評估大型語言模型代理行為公平性的多領域基準

大型語言模型代理在招聘、放款與醫療分診等領域的決策日益增多，公平性仍僅以答案正確度衡量。AgentFairBench 以合成中性個人檔案，僅改變姓名暗示的種族與性別，測試四種代理架構的行動差異，提供翻轉率與分數差等指標。結果顯示，嚴格噪音基準下，Claude Haiku 4.5 無顯著人口統計偏差。

速報

雙向可證性指紋（BPF）提升自動形式化的忠實度

自動形式化的主要挑戰是忠實度，形式化結果可能與原始數學敘述不符。研究提出雙向可證性指紋（BPF）框架，結合反事實探針與連續忠實度分數，以資訊理論方式分配探針預算，並在解碼階段使用 BPF 作為獎勵。實驗顯示 BPF 能以 3% 假陽率偵測近 90% 的漂移，並將漂移率降低 47%。

速報

Tensor-Coord：用多線性代數解決 LLM 多代理人協作衝突

大型語言模型在多代理人規劃時常面臨空間碰撞與資源爭奪等協調失效問題。研究人員提出 Tensor-Coord 框架，將多代理人的共同計畫表示為三階張量，利用 CP 與 Tucker 分解等多線性代數工具量化協調複雜度並精確定位衝突。透過將分析結果轉化為自然語言約束，引導 LLM 迭代地重新規劃。實驗證明該方法在多機器人配送任務中能有效提升計畫收斂率。

速報

AI Index 第九版報告：生成式 AI 經濟價值與治理挑戰

AI Index 第九版報告指出，人工智慧技術快速演進的同時，相關治理、評估、教育與資料基礎建設仍難以同步。報告首次以更高雄心測試推理、安全與實務任務的 AI 表現，並說明這些測量的可靠性問題。新增的生成式 AI 經濟價值估算與勞動市場影響證據，顯示其商業潛力與職場衝擊。

速報

合成對抗適應：人類與人工智慧的共演新框架

本研究提出「合成對抗適應」概念，探討在人機多代理環境中，AI 系統與人類如何透過彼此策略與行為的互相適應而共同演化。研究以圍棋、混合動機社會互動以及地緣政治模擬等案例說明，當 AI 發展出新策略或社會協議時，使用者會從中萃取洞見並調整自身行為，進而產生全新的人機互動動態。

速報

AI 科學家：全自動科研系統首次通過機器學習會議審稿

自動化科學是 AI 的長期目標。研究團隊開發 AI 科學家，利用基礎模型與多層代理系統，自主產生構想、寫程式、執行實驗、分析資料、撰寫論文並自行審稿。其產出論文在機器學習會議工作坊的首次審查中通過，錄取率約七成，顯示 AI 在科研流程的完整自動化已初見成效。

速報

前沿大型模型無思考鏈推理效能翻倍　GPT‑5.5 兩分鐘內完成 50% 任務

研究測試前沿 AI 模型在不使用思考鏈（CoT）下的推理表現，涵蓋數學、程式、謎題等 43 項基準。結果顯示，模型的 50% 任務完成時間每年翻倍，GPT‑5.5 已超過 3 分鐘且需 1,500 以上推理 token。此趨勢若持續，預估 2028 年完成時間將超過 7 分鐘，對安全監控構成挑戰。

速報

合成資料提升小型語言模型於 Text‑to‑Cypher 的表現

本研究提出一套自動合成資料生成方法，協助微調小型大型語言模型（LLM）以執行 Text‑to‑Cypher 解析，將自然語句轉換為圖資料庫查詢語言 Cypher。實驗涵蓋所有主流 Text‑to‑Cypher 基準測試，結果顯示，透過合成資料的訓練，小型 LLM 的準確度大幅提升，已能與大型商業模型相當。

速報

AI 輔助下的自主權讓渡：人類決策的認知成本模型

隨著人工智慧融入決策環境，人類的自主權正被逐步讓渡。研究提出三大機制：AI 輔助的沉默成本、讓渡門檻與恢復機制，說明認知帶寬耗盡如何使自主功能難以回收。結果顯示，若未設計結構化的重新介入路徑，使用者可能形成對 AI 的功能依賴，將自主恢復變成文化與政治層面的挑戰。

速報

AI 對齊新思路：以客觀底線取代單一人類價值觀

本研究挑戰以單一人類價值觀對齊人工智慧的傳統觀點，指出不同社會與政治立場會導致截然不同的價值取向，若以此為唯一目標可能帶來風險。作者主張，AI 應先遵守不可協商的客觀底線——包括能力、事實正確性、誠實與合法性——再在語言、語調與合法價值交換層面容納多元觀點。

速報

HierSVA：LLM 驅動的階層式硬體形式驗證整合套件

研究提出 HierSVA 整合套件，結合 RTL 前處理與 LLM 迴路形式驗證，產出階層式 SystemVerilog 斷言。套件建構 342 模組資料集，並以六項指標評估斷言品質。測試顯示編譯率 67.1%，非空斷言證明成功率 82.1%，但偵測率僅 70.2%。

速報

大型語言模型驅動的自動量子電路設計框架

量子電路的高效設計長期依賴專家經驗。研究團隊提出一套自動化代理框架，利用大型語言模型在明確限制下進行迭代式電路設計。系統結合探索、生成、討論、驗證、儲存、評估與審查七大模組，形成閉環流程，結合網路知識、文獻批判、可執行程式碼生成與實驗回饋。