Agents Report | 代理人報告 (Page 45)

深度分析

AI 代理的 Paper‑replication 流程全解析：從目標證據到完整再現

隨著 AI 代理在科研領域崛起，Paper‑replication 工作流被設計用於自動再現科學機器學習論文。它將論文聲稱拆解成目標，記錄方法、執行實驗、比對結果，並以工作空間與驗證檢查作為完成依據。實驗顯示四篇論文的158項聲稱全部在工作空間內得到匹配，證明此流程可提升再現性與審核可靠度。

深度分析

「行動感知 LLM 人格模型」：多模態說話者連結提升公民會議模擬真實度

本研究提出一套可復現的流水線，將公開 Zoom 會議影片轉換為具說話者身分標記的逐字稿，並加入人物檔案與實用行動標籤。透過多模態說話者連結（視覺框框、音訊特徵、文字上下文）自動對應真實姓名，接著以參數效能微調（PEFT）將大型語言模型（LLM）調整為「行動感知」人格模型。

深度分析

AutoGraphAD：基於異質變分圖自編碼器的無監督網路異常偵測新方法

隨著網路攻擊日益增多，標記資料昂貴且稀缺。研究提出AutoGraphAD，利用異質變分圖自編碼器在無標記資料下偵測異常，並以重建誤差計算異常分數。實驗顯示其偵測效能與Anomal‑E相當，訓練與推論速度分別快1.18與1.03個量級，顯著提升部署效率。

深度分析

SurfaceLogicKV：基於表面記憶與邏輯建構的雙層 KV 快取自適應壓縮技術

隨著大型語言模型輸入長度持續增長，KV快取記憶體需求急升。研究提出SurfaceLogicKV，透過將注意力行為分為表面記憶與邏輯建構，於層與頭級別動態分配快取預算。實驗顯示在多項長序列任務上，壓縮後的效能與FullKV相當，甚至在部分測試中超越。

深度分析

多代理系統結合微調小型語言模型的電信網路自動化故障排除方案

隨著電信網路規模與複雜度提升，傳統故障排除仍仰賴人工專家。研究提出結合大型語言模型協調與微調小型語言模型的多代理系統，透過自動化規劃與執行快速定位根因。系統內含協調者、解決方案規劃器、資料檢索與根因分析等六個專職代理，於 RAN 與核心網路均驗證成效。

Infographic of Tracebit's Context Bombing technique, using forbidden prompts to trigger safety guardrails against AI hacker agents.

深度分析

Tracebit 推出「上下文炸彈」Context Bombing：利用安全護欄反制 AI 駭客代理人

面對 AI 代理人自動化攻擊的威脅，資安公司 Tracebit 提出一種名為「上下文炸彈」的防禦新招。該技術透過在敏感資料旁植入能觸發 LLM 安全護欄的禁忌提示詞，誘導攻擊 AI 觸發拒絕機制而強制停止運作。實驗證明，此舉能將 AI 代理人的管理員權限獲取率從 57% 降至 5%，將原本的攻擊漏洞轉化為強大的防禦屏障。

速報

解決複雜推理痛點：HiPO 分層偏好優化讓 LLM 數學能力大幅提升

大型語言模型在複雜推理任務中常面臨對齊挑戰，傳統 DPO 框架因缺乏對多步驟解答的細粒度反饋而受限。研究團隊推出 HiPO 分層偏好優化技術，將回應拆分為查詢澄清、推理步驟與答案區段，並對各段獨立計算損失函數以進行針對性訓練。實驗證明，HiPO 能在維持訓練穩定性的同時，顯著提升 7B 模型在數學基準測試中的表現與邏輯一致性。

深度分析

QAgent：利用多代理系統與 LLM 自動化 OpenQASM 量子程式設計

隨著NISQ裝置展現量子優勢，OpenQASM程式設計門檻高。QAgent以多代理結合任務規劃、少樣本學習、檢索增強生成與思考鏈推理，自動產出與除錯QASM程式，正確率提升逾七成，同時支援長期記憶與工具調用，預計降低量子開發門檻，促進AI代理與量子計算的跨域融合。

深度分析

打破黑盒子：SAMPAT 神經網路實現 AI 運算過程的全可解釋性

面對深層學習模型缺乏可解釋性的挑戰，研究人員提出 SAMPAT 三層神經網路架構。該技術利用多變量多項式與解析轉換，將模型輸出轉化為可讀的代數表達式，能證明地近似任何連續函數。實驗顯示 SAMPAT 在多變量函數近似中，僅需傳統網路約八分之一的參數即可達成更佳的 MSE 表現，為科學分析與非線性系統建模提供完全可解釋的替代方案。

深度分析

打破 AI 黑盒子：RashomonLLM 以多樣化解釋集提升預測準確率

針對人工智慧黑盒子難以解釋且準確率與透明度常需權衡的痛點，研究者提出 RashomonLLM 框架。該技術引入羅生門解釋集概念，利用 LLM 代理人工作流透過解釋、預測與反思的循環迭代，將解釋過程與預測性能深度耦合。實驗證明此方法能有效應對數據分佈偏移，且在多項基準測試中顯著提升預測準確率，為可解釋 AI 提供了新路徑。

深度分析

「測試時擴展」於小規模視覺語言模型的成效：Qwen3.5-4B 在 ImageCLEF 2026 獲 84.1% 準確率

研究團隊探討測試時擴展技術在小規模視覺語言模型上的適用性，並在多國語言視覺選擇題基準 EXAMS-V 上進行測試。透過對比 Qwen 系列模型，研究發現效能提升關鍵在於基礎模型能力、正確的解析格式與充足的解碼代幣預算，而非複雜的搜尋機制。最終配置在 ImageCLEF 2026 測試集達到 84.1% 準確率，位居榜首。

深度分析

STEEL：首個針對 AMD XDNA NPU 的 FlashAttention 實作，實現低功耗 AI 代理推理

隨著 AI 代理融入作業系統，筆電端 SoC 的能效推理成為關鍵。研究團隊推出 STEEL，首個針對 XDNA NPU 的開源 FlashAttention 實作，透過三階段資料流管線與稀疏感知配置，解決因果遮罩導致的運算不均問題。實驗顯示，STEEL 在 AMD Ryzen AI 9 HX 370 上能耗較 CPU 降低 9.17 倍，較 GPU 降低 1.75 倍，大幅提升長序列推理效率。

Latest

AI 代理的 Paper‑replication 流程全解析：從目標證據到完整再現

「行動感知 LLM 人格模型」：多模態說話者連結提升公民會議模擬真實度

AutoGraphAD：基於異質變分圖自編碼器的無監督網路異常偵測新方法

SurfaceLogicKV：基於表面記憶與邏輯建構的雙層 KV 快取自適應壓縮技術

多代理系統結合微調小型語言模型的電信網路自動化故障排除方案

Tracebit 推出「上下文炸彈」Context Bombing：利用安全護欄反制 AI 駭客代理人

解決複雜推理痛點：HiPO 分層偏好優化讓 LLM 數學能力大幅提升

QAgent：利用多代理系統與 LLM 自動化 OpenQASM 量子程式設計

打破黑盒子：SAMPAT 神經網路實現 AI 運算過程的全可解釋性

打破 AI 黑盒子：RashomonLLM 以多樣化解釋集提升預測準確率

「測試時擴展」於小規模視覺語言模型的成效：Qwen3.5-4B 在 ImageCLEF 2026 獲 84.1% 準確率

STEEL：首個針對 AMD XDNA NPU 的 FlashAttention 實作，實現低功耗 AI 代理推理