深度分析 - Agents Report | 代理人報告 (Page 52)

深度分析

MAST 多代理框架結合大型語言模型提升測試維護精準度

隨著程式碼快速演進，測試維護成本高企。研究提出MAST多代理框架，結合靜態、詞彙、語意分析並以LLM融合，提升測試定位精準度。實驗顯示其在21個EricssonJava專案中提升精確率與F1分數，降低誤報。透過後檢查機制過濾偽陽性，雖然召回率略低，仍展現多資訊源融合的效益，提升開發效率。

深度分析

可驗證環境驅動的程式碼代理：KAT‑Coder‑V2.5、AutoBuilder、MOPD 之效能評估

隨著程式碼模型從被動補全轉向自主代理，研究提出 KAT‑Coder‑V2.5，利用 AutoBuilder 重新建構可驗證的多語言倉庫，並以 KwaiClawEnv 產生大規模工具使用軌跡。實驗顯示其在 PinchBench 取得最佳工具使用成績，且在倉庫層級軟體工程基準上僅次於 Opus 4.8。

深度分析

多模態大型語言模型於互動式儀表板的自動重建：Dashboard2Code、Benchmark DashboardMimic 與 Gemini 3 Pro 成果

自動化視覺化近年因多模態大型語言模型快速進步而蓬勃發展，但多聚焦於靜態圖表，忽略了實務上常見的互動式儀表板。研究提出 Dashboard2Code 任務，要求模型在執行點擊、篩選等操作時即時收集回饋，並產出可重現原儀表板的程式碼。

深度分析

結合大型語言模型與運籌的 AI 購物代理人：三種資訊假設下的最佳購買時機策略

本篇報導探討在電商平台上，AI 代理人如何在有限的購買窗口內，根據價格波動與消費者估值決定「即時購買」或「等待」的最佳時機。研究提出三種資訊假設：已知穩定價格分布的靜態模型、以貝式更新的未知分布模型，以及僅依價格上下界的魯棒模型，分別對應時間門檻、信念門檻與隨機門檻三種購買規則。

深度分析

ICLR 論文嵌入破壞度量（EDM）領先：審稿分數與長期影響幾乎無關

本研究以ICLR2017‑2025年36,113篇論文為樣本，提出方向感知的嵌入破壞度量（EDM），發現EDM在辨識高引用與未來研究重定向上表現最佳，審稿分數與未來破壞性幾乎無關。研究亦定義五類催化劑，包括主題發起、橋接與內部重定向，顯示此類論文可促成跨領域引用增長，對AI產業與開發者生態具長遠影響。

深度分析

Portico：以可撤銷能力監控編碼代理人餘留授權的設計與實驗

本研究聚焦於編碼代理人在子任務完成後仍保有的餘留授權問題，提出Portico參考監控器，透過任務合約生成初始能力、授權規則與關閉規則，於授權期限結束即自動撤銷。實驗證明Portico能完全阻止事後使用過期能力，同時維持任務成功率與開發效率，此舉亦為未來安全編碼工具設計提供參考。

深度分析

HalluSquatting：LLM 幻覺資源佔領與 AI 編碼助手安全風險分析

研究顯示，AI 大型語言模型易受 HalluSquatting 攻擊，攻擊者搶佔熱門 repo 名稱並注入反向殼程式，能在 Cursor、GitHub Copilot 等編碼助手上感染裝置，造成大型僵屍網路與勒索風險。研究者指出六大模型均有相同幻覺，攻擊者註冊可搶占的 repo，即可在多個 AI 編碼工具植入惡意程式。

ResearchStudio‑Reel Paper2Assets 多媒體自動化平台高效

深度分析

ResearchStudio‑Reel：整合 Paper2Assets 等五大技能的研究發表自動化全流程

研究發表的最後一公里仍須手工製作海報、講座影片與部落格。ResearchStudio‑Reel 以共享抽取與可編輯輸出為核心，整合五項 AI 技能自動產出 PPT、影片與雙語部落格，且提供互動式 HTML 觀賞介面。此套件不僅降低作者製作時間，也讓產業與學術單位可快速取得一致性高的多媒體說明材料。

深度分析

回溯控制探測鏈：利用隱藏層預測提前中止 LLM 代理人任務，節省近 50% 推論算力

LLM代理人在多步任務中常在失敗前耗盡算力。研究利用隱藏層激活的線性探測器於首輪即預測失敗，構建六階段回溯控制探測鏈，每關以Clopper–Pearson校準門檻保證召回，於90%成功召回下，Qwen‑2.5‑7B與Llama‑3.2‑3B分別節省約47%與37%推論計算。

深度分析

從 CTP 到 CTBE：共享初始化與表徵對齊在模型蒸餾與 LLM 微調中的影響

研究指出，當教師與學生模型共享初始權重且學習率足夠小時，即使學生只接受純噪音訓練，也能繼承教師的數字分類能力。此現象被稱為隱蔽特徵傳遞，核心機制是表徵對齊而非資訊傳遞。實驗顯示，凍結輸入投影會破壞傳遞，而凍結輸出投影則不影響，證實幾何對齊是關鍵。

深度分析

「evalci」：Python 套件提供語言模型評估的統計信賴區間與顯著性檢定

在語言模型評估常只報單一準確度時，evalci 提供統計信賴區間、配對顯著性測試與多重比較校正，讓結果具可驗證性。實驗顯示，原先排行榜上 8 個相鄰差距中有 3 其實不顯著。此工具僅依賴 numpy、scipy、pandas，安裝簡便，且與 lm-evaluation-harness、HELM 輸出直接對接。

深度分析

SkillReranker：結構化任務‑技能圖提升 LLM 代理人效率與成功率

隨著技能庫規模擴大，傳統僅靠語意相似選擇易產歧義。SkillReranker 透過任務與技能分解，構建有向無環執行圖，劃分子任務並在段內重新排序，提升完成率、減少互動步數與 token 用量。相較於固定Top‑k檢索，SkillReranker能根據任務難度自調技能數量，兼顧效能與資源效率。