Agents Report | 代理人報告 (Page 19)

深度分析

Jacobian Lens 揭示 LLM 內部全局工作空間：從可解釋性到對齊安全

研究人員利用新開發的 Jacobian Lens 技術，探索大型語言模型內部的資訊處理機制。該技術可識別模型準備轉化為文字的特徵空間 J-space，發現其功能與神經科學中的全局工作空間理論高度相似，能承載刻意推理與靈活的內部對話。實驗證明透過干預 J-space 可直接改變模型輸出，並揭露其隱藏的策略思考，為 AI 可解釋性與對齊研究提供新突破。

深度分析

FLINT黑盒攻擊：利用5G實體層側信道識別聯邦學習模型架構

聯邦學習旨在保護原始數據，但 5G 網路的實體層調度元數據仍可能洩漏資訊。研究團隊開發 FLINT 框架，透過解碼 PDCCH 調度資訊並將變動識別碼映射回設備，利用多視圖時間建模分析訓練行為，成功從黑盒觀測中推論出模型架構家族。實驗結果顯示其分類準確率極高，證明實體層側信道可將被動偵察轉化為針對性的下游攻擊。

深度分析

AV-JEPA：無解碼器與對比學習的音視訊自監督學習架構

AV-JEPA 將 LeJEPA 擴展至音視訊領域，使用早期融合 ViT 與模態丟失實現潛在空間跨模態預測，無需解碼器或對比學習。在 VGGSound 達到 57.1% top-1、AudioSet 32.7 mAP，並支援零樣本跨模態檢索，展現理論引導的簡潔架構潛力。

速報

本地語義搜尋神器：Smart Connections MCP Server 讓 Claude 讀懂你的 Obsidian 筆記庫

Obsidian 用戶常苦於筆記搜尋不夠精準。Smart Connections MCP Server 利用已生成的嵌入向量，在本機執行相同模型進行語義搜尋，無需雲端呼叫。支援跨筆記庫搜尋、相似筆記推薦與關聯圖探索，讓 Claude 能真正理解筆記內容。

深度分析

AI安全門檻標準化：預期損害模型與進展速率量化框架

面對前沿 AI 公司安全門檻定義不一導致的驗證困難與競底風險，研究團隊提出一套調和方法論，將各家模糊的風險描述轉化為可審計的量化底線。針對網路與生物濫用風險，透過預期損害模型量化潛在危害；針對自動化 AI 研發，則建立進展速率基準。此舉旨在建立產業統一的最低安全標準，降低風險評估的主觀性並強化第三方審計可行性。

深度分析

Open CoDesign 開源本機 AI 設計工具：支援多模型與即時原型產出

Open CoDesign 是一款本地開源的 AI 設計工具，支援多模型與即時產出。它提供桌面原生、可自帶金鑰的彈性，並可匯入 Claude 或 Codex 設定。此工具降低雲端鎖定風險，促進設計工作流程的自主性。同時支援 HTML、PDF、PPTX 等多種匯出格式，適合快速產出行銷素材。

深度分析

S1-Omni：統一科學多模態推理模型，在多項基準上超越GPT-5.5與Gemini-3.1-Pro

現有科學AI模型分散於領域專用模型、工具增強語言模型與科學語言模型，缺乏統一架構。S1-Omni提出一套整合科學數據統一表徵、自然世界知識對齊與領域特定解碼的單一多模態推理模型，能同時處理分子、材料、蛋白質、光譜、科學影像等異質數據，並支援性質預測、光譜到分子生成、蛋白質位點預測、科學影像生成與編輯等任務。

速報

MGDT：MLLM 引導擴散變換器，突破多模態知識圖譜補全瓶頸

多模態知識圖譜補全（MKGC）需從結構、文字與視覺線索推斷缺失實體。現有擴散模型直接在原始多模態特徵上進行去噪，迫使模型同時處理關係相關線索選取、跨模態語義對齊與結構感知實體生成，導致雜訊與語義不一致。

深度分析

SeerGuard 安全框架：以世界模型預測行動介面 AI 代理人風險

行動介面 AI 代理人雖能自動執行複雜任務，但單一錯誤點擊可能造成不可逆後果。SeerGuard 透過指令層篩選與動作層風險評估，利用語意化的世界模型預測後續畫面與安全性，實驗顯示在 Qwen3‑VL‑8B‑Instruct 上將安全效用分數提升至 0.596，風險成本下降至 0.130。

深度分析

從神經網路到Prolog程式：強化學習策略的可解釋蒸餾方法

深度強化學習策略常被視為黑盒，難以解讀與編輯。本研究提出三階段轉換流程，將 PPO 教師策略萃取為可執行的 Prolog 規則程式，並透過回報最大化編輯使其超越教師。在有限狀態任務中達到精確最優回報，連續控制任務則受維度災難限制，但 CartPole 與 Acrobot 幾乎完全替代神經網路。

速報

ARC-AGI-3 代理歸因研究：完整驗證變體全面解題，但可能僅飽和公開集

一項針對 ARC-AGI-3 代理的歸因研究，設計四種巢狀 Codex 變體進行比較。結果顯示完整驗證變體在四組設定中皆排名第一，但資源消耗較高；後續以 gpt-5.6-sol 測試時，該變體完全解完所有公開遊戲，RHAE 約 99%，動作數不到人類基線一半，但可能僅代表公開集飽和。

深度分析

多智能體數學推理：評審者精度高不等於採納率高，研究揭示批評轉化才是關鍵

一項針對4,181道奧數題的研究發現，多智能體系統中專門評審者的錯誤檢測精度雖高（0.861 vs 0.644），但批評被後續答案採納的比例卻遠低於廣播式討論（0.336 vs 0.935），導致最終解題率反而落後。研究指出，評審者精度與批評採納是兩個可獨立測量的維度，設計時須同時關注。

Latest

Jacobian Lens 揭示 LLM 內部全局工作空間：從可解釋性到對齊安全

FLINT黑盒攻擊：利用5G實體層側信道識別聯邦學習模型架構

AV-JEPA：無解碼器與對比學習的音視訊自監督學習架構

本地語義搜尋神器：Smart Connections MCP Server 讓 Claude 讀懂你的 Obsidian 筆記庫

AI安全門檻標準化：預期損害模型與進展速率量化框架

Open CoDesign 開源本機 AI 設計工具：支援多模型與即時原型產出

S1-Omni：統一科學多模態推理模型，在多項基準上超越GPT-5.5與Gemini-3.1-Pro

MGDT：MLLM 引導擴散變換器，突破多模態知識圖譜補全瓶頸

SeerGuard 安全框架：以世界模型預測行動介面 AI 代理人風險

從神經網路到Prolog程式：強化學習策略的可解釋蒸餾方法

ARC-AGI-3 代理歸因研究：完整驗證變體全面解題，但可能僅飽和公開集

多智能體數學推理：評審者精度高不等於採納率高，研究揭示批評轉化才是關鍵