深度分析 - Agents Report | 代理人報告 (Page 35)

深度分析

SurfaceLogicKV：基於表面記憶與邏輯建構的雙層 KV 快取自適應壓縮技術

隨著大型語言模型輸入長度持續增長，KV快取記憶體需求急升。研究提出SurfaceLogicKV，透過將注意力行為分為表面記憶與邏輯建構，於層與頭級別動態分配快取預算。實驗顯示在多項長序列任務上，壓縮後的效能與FullKV相當，甚至在部分測試中超越。

深度分析

多代理系統結合微調小型語言模型的電信網路自動化故障排除方案

隨著電信網路規模與複雜度提升，傳統故障排除仍仰賴人工專家。研究提出結合大型語言模型協調與微調小型語言模型的多代理系統，透過自動化規劃與執行快速定位根因。系統內含協調者、解決方案規劃器、資料檢索與根因分析等六個專職代理，於 RAN 與核心網路均驗證成效。

Infographic of Tracebit's Context Bombing technique, using forbidden prompts to trigger safety guardrails against AI hacker agents.

深度分析

Tracebit 推出「上下文炸彈」Context Bombing：利用安全護欄反制 AI 駭客代理人

面對 AI 代理人自動化攻擊的威脅，資安公司 Tracebit 提出一種名為「上下文炸彈」的防禦新招。該技術透過在敏感資料旁植入能觸發 LLM 安全護欄的禁忌提示詞，誘導攻擊 AI 觸發拒絕機制而強制停止運作。實驗證明，此舉能將 AI 代理人的管理員權限獲取率從 57% 降至 5%，將原本的攻擊漏洞轉化為強大的防禦屏障。

深度分析

QAgent：利用多代理系統與 LLM 自動化 OpenQASM 量子程式設計

隨著NISQ裝置展現量子優勢，OpenQASM程式設計門檻高。QAgent以多代理結合任務規劃、少樣本學習、檢索增強生成與思考鏈推理，自動產出與除錯QASM程式，正確率提升逾七成，同時支援長期記憶與工具調用，預計降低量子開發門檻，促進AI代理與量子計算的跨域融合。

深度分析

打破黑盒子：SAMPAT 神經網路實現 AI 運算過程的全可解釋性

面對深層學習模型缺乏可解釋性的挑戰，研究人員提出 SAMPAT 三層神經網路架構。該技術利用多變量多項式與解析轉換，將模型輸出轉化為可讀的代數表達式，能證明地近似任何連續函數。實驗顯示 SAMPAT 在多變量函數近似中，僅需傳統網路約八分之一的參數即可達成更佳的 MSE 表現，為科學分析與非線性系統建模提供完全可解釋的替代方案。

深度分析

打破 AI 黑盒子：RashomonLLM 以多樣化解釋集提升預測準確率

針對人工智慧黑盒子難以解釋且準確率與透明度常需權衡的痛點，研究者提出 RashomonLLM 框架。該技術引入羅生門解釋集概念，利用 LLM 代理人工作流透過解釋、預測與反思的循環迭代，將解釋過程與預測性能深度耦合。實驗證明此方法能有效應對數據分佈偏移，且在多項基準測試中顯著提升預測準確率，為可解釋 AI 提供了新路徑。

深度分析

「測試時擴展」於小規模視覺語言模型的成效：Qwen3.5-4B 在 ImageCLEF 2026 獲 84.1% 準確率

研究團隊探討測試時擴展技術在小規模視覺語言模型上的適用性，並在多國語言視覺選擇題基準 EXAMS-V 上進行測試。透過對比 Qwen 系列模型，研究發現效能提升關鍵在於基礎模型能力、正確的解析格式與充足的解碼代幣預算，而非複雜的搜尋機制。最終配置在 ImageCLEF 2026 測試集達到 84.1% 準確率，位居榜首。

深度分析

STEEL：首個針對 AMD XDNA NPU 的 FlashAttention 實作，實現低功耗 AI 代理推理

隨著 AI 代理融入作業系統，筆電端 SoC 的能效推理成為關鍵。研究團隊推出 STEEL，首個針對 XDNA NPU 的開源 FlashAttention 實作，透過三階段資料流管線與稀疏感知配置，解決因果遮罩導致的運算不均問題。實驗顯示，STEEL 在 AMD Ryzen AI 9 HX 370 上能耗較 CPU 降低 9.17 倍，較 GPU 降低 1.75 倍，大幅提升長序列推理效率。

深度分析

「小型超曲率語言模型」實現創造力、可審核誠實與選擇性遺忘

隨著語言模型成為個人助理，研究提出小型超曲率模型，藉由超曲率幾何實現創造力、可審核誠實與設計遺忘，實驗顯示二至三億參數模型在這三項特質上超越百億規模模型。同時提出以骨架與壁紙區分的記憶機制，讓AI能在長期關係中保留核心資訊、遺忘日常細節。此舉或將重塑AI伴侶的商業格局。

深度分析

「風險感知通用效用馬可夫決策過程」：熵風險度量結合蒙地卡羅樹搜尋的實作與驗證

研究針對通用效用馬可夫決策過程加入風險感知目標，提出以熵風險度量為基礎的風險感知框架，並利用蒙地卡羅樹搜尋在線規劃求解，實驗驗證在探索、模仿學習及多目標任務中能有效平衡期望表現與風險偏好，提升策略的魯棒性，此方法亦展示於不同折扣因子設定下的穩定性，為未來風險感知決策提供實作基礎。

深度分析

大型語言模型的地緣政治背書效應：GPT‑5、Claude Sonnet、Gemini 2.5 Flash 與 DeepSeek 評分實驗分析

本研究檢驗大型語言模型在評估國際經濟與安全政策時，是否因隨機標示的美國、歐盟、中國或俄羅斯背書而產生分數差異。以 GPT‑5、Claude Sonnet、Gemini 及 DeepSeek 四款模型，分別在僅給分與附加說明兩種條件下測試。結果顯示西方背書普遍得到較高分，且說明需求會改變評分走向，突顯模型內建的地緣政治偏見。

深度分析

從 AI Skillstore 到四大平台：軟體工程技能的分布、評估與安全機制

AI代理技能市場快速成長，將軟體工程活動封裝為可重用技能。研究收集11,497件技能，發現開發類占比最高，評估機制多聚焦安全與實用性，且不同平台分類差異明顯。此趨勢預示未來開發者將更依賴技能生態，影響AI產業與軟體開發流程。同時，安全審查與版本管理仍是挑戰。

SurfaceLogicKV：基於表面記憶與邏輯建構的雙層 KV 快取自適應壓縮技術

多代理系統結合微調小型語言模型的電信網路自動化故障排除方案

Tracebit 推出「上下文炸彈」Context Bombing：利用安全護欄反制 AI 駭客代理人

QAgent：利用多代理系統與 LLM 自動化 OpenQASM 量子程式設計

打破黑盒子：SAMPAT 神經網路實現 AI 運算過程的全可解釋性

打破 AI 黑盒子：RashomonLLM 以多樣化解釋集提升預測準確率

「測試時擴展」於小規模視覺語言模型的成效：Qwen3.5-4B 在 ImageCLEF 2026 獲 84.1% 準確率

STEEL：首個針對 AMD XDNA NPU 的 FlashAttention 實作，實現低功耗 AI 代理推理

「小型超曲率語言模型」實現創造力、可審核誠實與選擇性遺忘

「風險感知通用效用馬可夫決策過程」：熵風險度量結合蒙地卡羅樹搜尋的實作與驗證

大型語言模型的地緣政治背書效應：GPT‑5、Claude Sonnet、Gemini 2.5 Flash 與 DeepSeek 評分實驗分析

從 AI Skillstore 到四大平台：軟體工程技能的分布、評估與安全機制

大型語言模型的地緣政治背書效應：GPT‑5、Claude Sonnet、Gemini 2.5 Flash 與 DeepSeek 評分實驗分析