速報 - Agents Report | 代理人報告 (Page 17)

速報

POLARIS：以大型語言模型評審與人類參考注入提升開源寫作模型長度表現

研究指出，開源小型模型在長篇創意寫作上常因篇幅不足或品質下降而不敵前沿模型。團隊提出 POLARIS 訓練配方，結合以大型語言模型作為評審的結構化故事品質評分與人類參考注入（將教師強制的人寫故事作為高獎勵錨點）。在 Qwen3.5-9B 上使用約 1.4 千組短篇小說資料，於四顆 A100 GPU 訓練後得到 POLARIS-9B。

速報

MapAgent：結合規範驗證的工業級車道向量化映射架構

自動駕駛需要精確的車道等級地圖，但傳統建圖耗時。MapAgent 透過結合視覺語言判斷與規範驗證的 Judge‑Planner‑Worker 迴路，在感測器資料上自動校正錯誤，僅在低信心區塊介入。實驗與百度地圖整合顯示，該系統在 360 多城市提升自動化率至 95% 以上，顯著改善複雜場景的地圖品質。

速報

BioManus：圖形化規劃的生醫代理人突破工具混亂瓶頸

生醫工作流程自動化一直受限於工具介面多樣與規劃方式單一的雙重瓶頸。研究團隊推出 BioManus，透過 BioinfoMCP 編譯器將各式生醫軟體標準化為 MCP 伺服器，形成以工具、操作、資料型別與流程階段為節點的異質圖。推論時只抽取任務相關子圖，產生操作層級的工作流骨架，成功將規劃複雜度與工具總量解耦。

速報

Curation-Bench：自動化資料策展的通用編碼代理人測試平台

資料策展是現代人工智慧開發中最關鍵卻最耗時的環節。研究團隊提出 Curation-Bench，透過固定模型、訓練流程與評估套件，讓編碼代理人可在指令列環境中檢視、實作與修正資料政策，並重複提交至訓練管線。實驗顯示，未經特別調校的代理人在十輪內即可達到既有資料選取基線的表現，但仍傾向微調既有政策而非探索新方法。

速報

PEEL 框架：結合 Voyant 與 Claude 的 AI 文本分析新方法

大型語言模型改寫研究流程，同時削弱學者的認知負責任感。PEEL 框架結合 Voyant Tools 的遠距閱讀與 Claude 的 LLM 詮釋，揭露 AI 摘要在量化、詞頻與認知聲音上的系統性扭曲。結果顯示，若無非 AI 測量，這些偏差難以被察覺，呼籲在 AI 工具旁必須配備確定性儀器。

速報

因果神經機率電路提升概念瓶頸模型可干預性與準確度

概念瓶頸模型（CBM）透過在神經網路中加入概念層，使最終分類結果可解釋且支援專家在測試時修正概念值。然而傳統 CBM 只會覆寫被修正的概念，忽略概念間的因果關係，導致干預效果受限。研究者提出因果神經機率電路（CNPC），結合神經屬性預測器與由因果圖編譯的機率電路，實現精確且可計算的因果推論，保留概念間的依賴。

速報

LatentChem：突破化學推理的連續潛在向量介面

目前化學大型語言模型大多依賴明確的思考鏈（Chain‑of‑Thought, CoT）來解決複雜推理問題，但將化學邏輯硬塞入文字會產生「模態不匹配」的瓶頸。研究團隊推出 LatentChem，透過連續思考向量與動態感知，將化學推理與語言生成解耦，讓模型在內部以潛在計算取代冗長文字。

速報

語言模型幻覺現象：線性關係導致虛構實體生成

研究聚焦於語言模型在面對未知實體時的幻覺問題，特別是線性關係的影響。研究者以合成未知實體基準 SyntHal 測試四種指令微調模型，發現線性關係與模型產生虛構答案的機率高度相關，相關係數介於 0.58 至 0.84。結果顯示，非線性關係較不易引發幻覺，提供未來模型設計的方向。

速報

DeMuon：去中心化矩陣最佳化新方法突破圖形拓撲限制

本研究針對去中心化矩陣最佳化提出 DeMuon，結合 Newton‑Schulz 正交化與梯度追蹤，能在重尾噪聲下保持迭代效率。理論證明其複雜度與最佳中心化方法相當，實驗顯示於不同圖形拓撲的 transformer 預訓練中，表現優於現有去中心化演算法。

速報

視覺變壓器的「綁定」資訊：提升多物件辨識的關鍵

本研究針對視覺變壓器（ViT）在多物件場景中的特徵綁定問題進行資訊理論化分析，提出測量模型表徵中綁定資訊的探測方法。實驗以不同挑戰（特徵共享、遮擋、自然特徵）之資料集，評估 ViT 各層（CLS token、空間 token）的綁定表現，並比較多個預訓練模型。

速報

OmniDreams：即時生成式世界模型提升自駕車政策評估

隨著自駕車技術持續突破，長尾情境的安全評估仍是瓶頸。研究團隊開發 OmniDreams，結合 Cosmos 擴散模型的視覺先驗，並在 21,000 小時的駕駛資料上進行中後訓練，能即時產生以動作條件的寫實感感測影像。

速報

神經檢索模型隱含文件相關性先驗的揭露

研究針對受監督的雙編碼檢索模型是否在訓練過程中學會了與查詢無關的文件相關性先驗進行了實驗。透過在凍結的文件向量上訓練簡易分類器，評估三種最先進的檢索模型於多項資訊檢索基準測試。結果顯示，監督式神經檢索器會編碼可遷移的相關性先驗，導致「可找性」差距：先驗較低的文件即使相關也較難被檢索。