深度分析 - Agents Report | 代理人報告 (Page 57)

深度分析

Mythos 與 Project Glasswing：開放式 AI 資安與半自主代理新架構

隨著Mythos與ProjectGlasswing推出，全球資安進入AI自動化新階段。開放原始碼與半自主代理結合，可加速漏洞偵測、驗證、協調與修補，降低單點失效風險，提升防禦者與攻擊者的能力平衡。此系統配方結合大算力、程式碼資料與自動化修補框架，對高風險組織安全格局產生深遠影響。

深度分析

SPADER：步驟同儕優勢與多樣性探索獎勵提升多答案問答的召回與 F1 表現

隨著大型語言模型被廣泛用於工具增強型代理人，研究聚焦於單一答案的長程推理。本文提出SPADER框架，結合步驟同儕優勢機制與多樣性探索獎勵，提升多答案問答的覆蓋率。實驗顯示在四大基準上召回與F1均優於現有方法。此技術有望提升搜尋助理與知識圖譜建構的完整性，並推動開發者設計更具探索性的AI代理人。

深度分析

等變性 JEPA：以少量交互實現零樣本泛化與高樣本效率

研究將世界對稱性硬編碼於潛在模型，採用等變性編碼器（2D 向量神經元、3D e3nn）與等變性預測器，於筆記本 CPU 上與參數較多的非等變基線比較。結果顯示在 SO(2)、SO(3) 及 SE(3) 群上誤差約為 1 倍，遠低於基線的 13 至 157 倍，同時閉環姿態控制保持方向不變性，證明等變性提升樣本效率與零樣本泛化。

深度分析

變分自編碼器常數崩潰檢測：利用 Simplex 見證證書的理論與實作

研究聚焦於變分自編碼器的常數崩潰問題，提出以固定教師後驗與正則單形頂點構建的簡單形見證函數作為檢測工具。透過計算教師資訊 I_T 與對數賠率能量 ℰ_T，若對齊損失 L_TS 小於 I_T，即可證明編碼器均值非恆定。此方法提供設計、監控與證書三階段框架，對模型穩定性具有實務價值。

深度分析

利用分散式 Wasserstein 重心與幾何插值代理緩解資料孤島中的模型崩潰

在資料稀缺且受限於隱私的環境下，傳統的樣本選擇會偏向本地分布，導致生成模型的多樣性逐漸喪失，出現模型崩潰。研究提出利用多個資料孤島的Wasserstein代理參考，無需共享原始資料，即可緩解多樣性衰減。實驗顯示，協作式代理能顯著降低崩潰風險，提升遞迴式合成資料管線的穩定性。

深度分析

「雙螺旋治理」框架結合 Agentic AI 與知識圖譜提升 WebGIS 開發穩定性

WebGIS開發面臨模型上下文、遺忘與指令失效等五大限制，我們提出雙螺旋治理框架以知識外部化與行為強制兩軸穩定代理人，於FutureShorelines專案中將2,265行程式碼重構為模組化ES6，降低51%循環複雜度並提升可維護性。此結果證實外部化治理優於僅靠模型能力的零樣本LLM，提升了地理資訊工程的作業可靠性。

深度分析

以 IRT 2PL 模型結合 METR 人類時間，BRIDGE 框架實現跨領域 AI 能力時間預測

隨著AI系統在真實場域的應用增多，傳統以人類完成時間為基準的評估成本高且難以擴展。研究提出BRIDGE框架，利用二參數邏輯IRT從模型回應推估隱含難度，再以人類時間校正，可僅靠模型表現預測新基準的人類完成時間，並預測能力每六個月翻倍，為AI評估提供新方向。

深度分析

NeoMap：訓練自由的資料流形交替投影實現高品質單張影像與影片新視角合成

研究聚焦單張影像或單目影片的全新視角合成，提出 NeoMap 利用預訓練影片模型的資料流形透過交替投影搜尋最佳噪聲初始值，免除額外微調。實驗在 Tanks‑and‑Temples、LLFF 與 DAVIS 三大基準上均超越現有方法，顯著提升視覺真實度與相機一致性。

深度分析

突破英文中心主義：Qwen3.5-27B 透過 SFT 與 GRPO 實現土耳其語原生推理

針對多語言 AI 常以英文思考再翻譯成目標語言的問題，TÜDÜM 專案利用 Qwen3.5-27B 建立土耳其語推理管線。該方案先透過 LoRA 進行監督式微調以強制思考路徑土耳其語化，隨後導入 GRPO 強化學習優化數學表現。實驗發現 SFT 能有效將思考過程轉為土耳其語，雖導致整體準確率下降，但 RL 可部分恢復數學能力。

深度分析

「Rank‑Then‑Act」：利用視覺‑語言模型排序實現無獎勵強化學習新範式

本研究提出Rank‑Then‑Act(RTA)框架，利用視覺‑語言模型在洗牌影片上以群組相對政策優化學習進度排序，並以Spearman排序相關作為唯一獎勵，於離散與連續控制任務均達到或超越既有影片獎勵基線，顯示僅靠影片序列的序數訊號即可驅動政策學習。

深度分析

ProCal：推論階段前景/背景提示校準提升開放詞彙物件偵測定位精度

研究聚焦開放詞彙物件偵測的定位校準問題，提出在推論階段加入前景與背景提示的ProCal模組，結合VLM前景分數與抑制分數形成提案先驗，提升新類別的APr約2.5點，顯示校準可改善偵測排序。實驗在OV‑LVIS與OV‑COCO上均獲顯著提升，證明模型在無需額外訓練的情況下即可改善新目標的定位品質。

深度分析

ADVENT：結合 LLM 與 Prolog 的謂詞發明提升 ILP 效能

在關係式概念學習中，缺乏適當的謂詞是ILP的瓶頸。ADVENT結合大型語言模型與Prolog逐步驗證，自動發明具語意的輔助謂詞，並累積於知識池供跨任務重用。實驗顯示成功率由零提升至80%，且知識池可再提升最高31個百分點。此方法顯示LLM能在結構化推理中創新，預期推動跨領域符號學習與可解釋AI新趨勢。