速報 - Agents Report | 代理人報告 (Page 39)

速報

受限流形超連結（mHC）導入 SSM：實驗驗證語言模型品質提升

研究探討將受限流形超連結（mHC）應用於狀態空間模型（SSM）語言建模。做法包括將殘差流擴展成多平行流，透過Sinkhorn-Knopp做單純形預混與後混，並在每層施加雙重隨機矩陣投影。結果在WikiText-2上顯示驗證損失與困惑度皆改善，代價是推論吞吐略降且記憶占用增加。

速報

NoisyCoconut：以潛在表示噪音提升大型語言模型推理可靠度

研究提出 NoisyCoconut，一種在推論階段操作模型內部表示的方法，透過向潛在軌跡注入受控噪音產生多條推理路徑，並以路徑間一致性作為置信訊號。此法無需重新訓練或改動模型參數，能在不接觸訓練資料下改善覆蓋率與準確率的權衡，並透過選擇性放棄在不確定時避免錯誤。

速報

元認知探針：用五項行為診斷揭露 LLM 自信與正確性落差

研究提出「元認知探針」，用五項行為診斷拆解大型語言模型的信心與正確性關係：包含校準、認知警覺、知識邊界、校準範圍與推理鏈驗證。對八款前沿模型與六十九名人類受測者比較，揭露像Gemini 2.5 Flash出現顯著跨任務不一致。工具為探索性，程式碼與資料已公開。

速報

Chaintrix：把LLM主張綁回結構化合約的智能合約審計框架

智能合約漏洞造成重大損失。團隊提出Chaintrix，要求所有LLM生成主張必須以結構化合約表示檢驗，並以Cross-ContractInteractionModel解析Solidity，用結構性檢查與符號執行分階段過濾誤報；在EVMbench上召回率為71.7%。

速報

LLM 支援規則→維修行動能力實測：規則到多選基準揭露脆弱點

工業設備監控仰賴工程師撰寫的符號規則，但瓶頸在於把規則翻譯成具體維修步驟。研究建立一個標準化基準，含6,690道專家驗證多選題、118組規則—動作配對與16類設備，並實作將規則正規化為析取標準式、用嵌入抽樣生成干擾選項的symbolic-to-MCQA流程，設計五種變體以探查失效模式。

速報

衡量關鍵：生成式、多模態與代理型醫療人工智慧基準框架

研究為生成式、多模態與代理型醫療AI制定基準框架。透過臨床任務設計、跨模態評測與人機互動指標,評估生成品質、推理一致性與代理能力。結果指出現有模型在一致性、可解釋性與臨床可用性仍有差距,建議採多維標準導向應用。並強調人機協作評估與安全性監測。

速報

大型語言模型後訓練：可及支援視角下的能力引出與能力創造

這篇論述從理論層面重整大型語言模型（LLM）後訓練的討論，主張應區分「能力引出」（elicitation）與「能力創造」（creation）。

速報

格線式空間提示提升圖表資料擷取準確度

科學圖表大規模自動擷取是文獻分析關鍵問題。研究比較高階語意提示與低階空間提示，提出在圖像上疊加座標格的做法，並與metadata-first與Chain-of-Thought方法對照。實驗顯示格線空間提示能顯著降低資料擷取誤差，提升可靠性。

速報

ai-drawio：以自然語言與人工智慧生成 drawio／mermaid 圖表

在GitHub上發現一個以自然語言生成圖表的開源專案，採用人工智慧解析描述並轉成drawio或mermaid格式，能產出流程圖與心智圖，並支援即時編輯與瀏覽預覽，簡化視覺化流程，提升團隊溝通效率。方便在瀏覽器內實時調整與協作，支援用戶以文字快速把想法轉為可編輯圖形。

速報

cloudflare-mcp：輕量級 MCP 伺服器為 Cloudflare API 整合打基礎

研究背景：duciker14的專案標示為建立輕量級MCP伺服器，目標是與完整CloudflareAPI高效互動並簡化雲端管理流程。核心作法以MCP為中心，透過CLI、CloudflareWorkers與容器化等主題標籤，暗示可與代理式AI與工具鏈整合。主要影響在於提供可擴充的起點，利於開發者探索整合路徑。

速報

γ-weakly θ-up-concavity：一階條件與上線性化的非凸優化框架

非凸函數優化長期是機器學習與組合優化的核心難題。研究提出γ-weakly θ-up-concavity，一種新的第一階條件，能廣泛刻畫尺度相關的曲率行為，包含先累積後遞減的報酬與平坦起始等模式。論文的主要理論貢獻在於證明此類函數可被上線性化：對任一可行點都能構造線性代理，且其增益可由曲率參數與可行域幾何顯式地給出近似係數。

速報

OpenAI 推出 Daybreak：結合 GPT-5.5‑Cyber 與 Codex Security 的資安偵測平台

OpenAI推出Daybreak專注於在攻擊者發現前偵測與修補弱點。它以三月推出的CodexSecurity為基礎，建立組織程式碼的威脅模型並自動驗證與偵測高風險路徑。OpenAI表示將整合多款人工智慧模型與產業夥伴，逐步部署更多資安能力。