速報 - Agents Report | 代理人報告 (Page 6)

速報

AI 安全盲點：條件化模型導致的「Inattentional Gap」

研究指出，將大型語言或視覺模型限制在特定任務上，會抑制其報告同時存在的安全關鍵訊號，類似人類的注意盲點。實驗涵蓋放射學、駕駛文字與胸腔 X 光影像，發現在所有測試模型中均出現此現象，且規模擴大或使用推理模型皆無法消除。結果顯示，僅依賴既定測試項目評估安全性，可能忽視真實危害，呼籲重新檢視 AI 安全基準。

速報

Red Queen Godel Machine：自我進化評估框架突破靜態基準

研究聚焦於自我改進代理人在變動評估環境中的表現。Red Queen Godel Machine 以 epoch 為單位，允許效用在階段間演化，並加入代理人即審稿人的代碼審查訊號。實驗顯示，其在程式碼測試、論文寫作與證明評分上均超越既有最佳模型，提升接受率與準確度。

速報

治理倒置假說：規範擴張或削弱 AI 系統實務控制

隨著 AI 監管持續擴張與技術複雜化，組織形式上更受治理約束，但實務控制力卻可能下降。研究提出治理倒置假說，指出四種機制—權限碎片化、象徵性治理擴張、控制外部化與權限癱瘓—說明規範堆疊如何削弱組織對 AI 系統的掌控。結果顯示，治理過度形式化可能反而削弱實務效能。

速報

開放權重大型語言模型在 AI 治理中的地理偏誤測試

本研究針對四款開放權重前沿大型語言模型，使用 Harvard Dataverse 於 2026 年發布的全球 AI 資料庫（GAID v2）進行基準測試。選取 18 項指標，涵蓋 IEEE IRAI 2026 框架的八大主題，產生近 3,000 筆國家‑指標‑年份觀測資料（2010‑2023）。

速報

LLM 自動篩選簡歷的提示注入攻擊：少數人操弄即能提升排名

研究探討大型語言模型在自動篩選簡歷時，求職者透過微妙的自我宣傳文字（提示注入）試圖影響模型評分的行為。實驗顯示，當簡歷品質相近且僅少數人使用此技巧時，排名提升顯著；但隨著使用者增多，效果快速衰退，甚至出現公平性問題，低品質候選人偶爾能超越高品質者。

速報

ReTeX：恢復單一合併模型中任務專家表現的新框架

多任務模型合併常因參數干擾而削弱各任務專家的效能。研究提出 Recover Task eXpert（ReTeX）框架，將合併過程中的參數干擾視為可加性偏移，透過預測這些偏移值來還原單一合併檢查點中的任務專家表現。ReTeX 內建一套基於 SVD 子空間簽名的路由器自由任務辨識器，於推論時選取投影殘差最小的子空間，以辨識目標任務。

速報

AgentX 多代理系統：自我演化的推薦實驗引擎

傳統的推薦演算法迭代依賴工程師手動產出假說、修改程式碼、執行 A/B 測試，導致創新只能隨人力線性成長。研究團隊提出 AgentX，一套在生產環境部署的多代理系統，將構思、開發、評估與學習全部自動化，形成閉環。

速報

新式 LLM 知識庫查詢機制：即時事實抽取與模型輕量化

研究提出一種讓大型語言模型在產生文字時自動向外部知識庫查詢事實的技術。此機制使模型輸出可即時更新、可追溯至原始資料，並讓較小的模型在事實正確度上媲美大型模型。核心做法是訓練模型產生特殊觸發詞，以呼叫知識庫查詢。實驗顯示，短篇與長篇文本的事實根植度皆有明顯提升，且只需編輯知識庫即可修正錯誤，而無需重新訓練模型。

速報

EvoOptiGraph：圖形演化驅動的 LLM 最佳化建模共演框架

自然語言自動化產生最佳化模型面臨訓練資料結構單一與資料生成與模型學習脫節兩大挑戰。研究提出 EvoOptiGraph，將混合整數線性規劃 (MILP) 以屬性雙部圖表示，利用保持有效性的演化算子產生結構多樣的實例，並透過確定性編譯與回譯驗證轉換成求解器程式碼與自然語言。

速報

全新框架解讀 AI 系統信念與欲望：機械可解釋性新突破

研究團隊提出一套結合激進詮釋哲學與機械可解釋性工具的框架，旨在從系統的計算事實推導其信念、欲望與意義。此方法提供了判斷解讀工具是否成功的標準，強調信念、欲望與命題結構必須整體考量，避免單一屬性測量造成的偏差。框架不僅有助於提升 AI 安全性，亦能在系統與解讀者概念不一致時提供測量雙向約束的手段。

速報

階層式特徵抽取與激活導向：降低語言模型阿諛行為的創新方法

本研究提出一套迭代式資料生成管線，透過階層式線性特徵抽取，精準辨識並抑制語言模型的阿諛行為（sycophancy）。與傳統二元對照樣本相比，作者利用呈現特徵強度與行為線性關聯的樣本群，成功將相關特徵劃分為線性可分的子空間。

速報

Cosmos 3 全方位世界模型：統合語言、影像、視訊、音訊與行動的突破

NVIDIA 推出 Cosmos 3 全方位世界模型，能同時處理文字、影像、視訊、音訊與動作序列，採用混合變換器架構，支援彈性輸入輸出配置。實驗證明其在多項任務上創新表現，並在開源文字轉影像、影像轉視訊以及機器人政策測試中獲最高排名，推動實體 AI 研究與部署。