深度分析 - Agents Report | 代理人報告 (Page 29)

Infographic of GenAI Evaluation pipeline for retail AI.

深度分析

GenAI Evaluation：打造零售業 AI 代理人的大規模多維度評估治理體系

零售業對話式 AI 代理人需要超越單純文字比對的評估方式。本研究提出 GenAI Evaluation 治理管線，利用 LLM-as-a-judge 實現多維度自動評分，並導入選擇性重新評估機制以降低計算成本並提升完整度。透過對 200 萬筆真實對話紀錄的測試，分類任務 F1 分數達 0.93，證明該框架能提供可審計且可擴展的品質監控方案。

Infographic on HalluSquatting attack exploiting AI hallucinations.

深度分析

HalluSquatting 攻擊揭露：利用 LLM 幻覺將 AI 助手轉化為大規模殭屍網路

資安研究揭露一種名為 HalluSquatting 的新型提示注入攻擊，利用 LLM 解析資源路徑時的幻覺漏洞。攻擊者預測模型最常出錯的儲存庫路徑並提前搶註，在其中植入惡意指令。由於 AI 程式碼助手具備終端機執行權限，此手法能讓駭客在無需針對個體的情況下大規模感染設備，進而構建殭屍網路或執行 DDoS 攻擊。

Infographic on SEO to AEO transition and the Agent-Ready framework.

深度分析

從 SEO 轉型至 AEO：Agent-Ready 框架提升 AI 代理人網站操作成功率

隨著 AI 代理人開始接管電商購物流程，傳統網站設計已無法滿足 AI 的解析需求。本研究提出 Agent-Ready 框架，透過優化機器可讀性、語義清晰度與執行路徑，讓 AI 代理人能更精準地提取資訊與執行操作。實驗顯示，此設計能將任務成功率從 49.3% 提升至 89.3%，大幅降低操作步數，證明結構化數據與明確的行動指令對提升 AI 代理人可靠性至關重要。

Topology control in multi-agent AI systems for consensus formation and clustering.

深度分析

互動圖形控制：揭開多代理人 AI 系統共識形成與分群機制

多代理人 AI 系統的互動圖形對共識達成具有決定性影響。本研究透過命名遊戲實驗，分析開源語言模型在不同路由規則下的行為，發現同質性路由會強化分群，而橋接路由結合記憶機制能有效修復分群並達成全局共識。研究進一步證明行為共識不等於狀態共識，揭示了潛在的內部結構殘留，為未來 AI 群體協調提供關鍵控制路徑。

An infographic of GRID architecture for grammar-constrained SQL generation.

深度分析

GRID：利用 LALR(1) 解析器實現企業級 SQL 生成的語法導引解碼

企業部署 LLM 生成 SQL 時面臨語法錯誤與權限管控挑戰。GRID 技術透過將解碼遮罩與 LALR(1) 解析器配置綁定，並結合 Rust 核心與 Byte-level Trie 走訪，確保輸出符合語法且嚴格遵守角色權限。實驗顯示其推論開銷極低，且能顯著提升小型模型在 Spider 基準測試中的執行準確度，為企業級 SQL 自動化提供可證明且高效的解決方案。

An infographic of Sovereign AI showing ontology-amplified distillation and contextuality audit.

深度分析

主權 AI 新路徑：本體論強化蒸餾與上下文審計機制

針對金融機構數據駐留法規限制，本研究提出本體論強化蒸餾技術，透過教師模型路徑與本體論導向的 DPO 微調，讓本地 Qwen3.6-27B 模型在專業金融任務上的表現與 GPT-5 持平。研究同步導入上下文審計機制，用以區分模型輸出變異的成因，避免在企業代理人路由中過度觸發人工審核，為主權企業模型部署提供一套模型構建與治理的完整方案。

In-model PTD tree drafting for 2x LLM inference speedup, replacing external models.

深度分析

突破自回歸瓶頸：PTD 漸進式樹狀草稿技術實現 2 倍推論加速

針對大語言模型自回歸生成導致的記憶體瓶頸，研究團隊提出 PTD 漸進式樹狀草稿技術。該方法捨棄傳統的外部輔助模型，直接在目標模型內部透過樹狀結構平行探索多條語義路徑，並利用逐步剪枝機制維持草稿的多樣性與連貫性。實驗結果顯示，PTD 在無需訓練且模型無關的前提下，可將推論速度提升至最高 2 倍。

Indirect data poisoning workflow leading to automated scientific fraud via AI agents.

深度分析

間接資料中毒：AI 研究代理人如何成為「科學詐欺」的工業化工具

隨著 AI 代理人被廣泛用於自動化科學研究，新型的間接資料中毒攻擊威脅浮現。攻擊者透過在公開資料庫上傳篡改後的資料集與誤導性元數據，誘導 AI 代理人檢索並分析錯誤資訊。研究發現此攻擊在五大社會議題測試中成功率近五成，且偵測率極低，顯示 AI 驅動的科學發現可能被遠端操縱，導致誠實的科學家在不知情下傳播錯誤結論。

PromptGraph framework for graph-based LLM prompt privacy protection.

深度分析

以圖形模型提升 LLM 提示隱私保護與生成效能：PromptGraph 方法解析

隨著雲端大型語言模型普及，提示資訊暴露隱私風險。研究提出PromptGraph以圖形化方式選取保護片段，同時保留關鍵關聯。實驗顯示在多任務與模型上，可提升隱私防護且維持效能。其將每個提示切分為節點，結合隱私分數與關聯邊權，透過圖形選擇最大化隱私增益並最小化效能損失，較既有方法提升隱私保護率。

Answer-conditioned CoT distillation for few-shot 3B VLM industrial vision.

深度分析

「答案條件式 CoT 蒸餾」提升 3B 小模型於工業視覺少樣本任務的表現，超越 GPT-4.1

工業視覺檢測常面臨標記數據不足且需求變動快的挑戰。本研究提出答案條件式 CoT 蒸餾技術，讓頂尖模型在已知正確答案的情況下生成視覺推理，並將其蒸餾至 3B 小模型中。實驗顯示在僅 18 至 30 張樣本下，該方法在多項工業任務中全面勝過直接微調，甚至在焊縫檢測中表現超越 GPT-4.1。

An infographic of the AWM framework showing multi-agent self-play generating sparse attacks to train autonomous vehicles.

深度分析

多代理自我對抗與稀疏聯盟：AWM 框架強化自駕車長尾情境安全

在密集車流中，傳統自駕規劃缺乏對罕見危險情境的防護。研究提出AdversarialWorldModeling(AWM)以多代理自我對戰生成稀疏攻擊聯盟，並以尾風險加權的約束最佳回應提升規劃器在長尾互動情境的穩健性，同時保留正常駕駛表現。此結果顯示AWM可在測試基準上提升2至6分。

深度分析

大型語言模型調查模擬平台 Anamnesis：Anthology、Alterity 核心技術與實驗成果

研究以Anamnesis為平台，結合Anthology與Alterity方法，利用大型語言模型生成具敘事背景的虛擬人格，模擬民意調查。平台支援多模態問卷與人口結構控制，實驗顯示其意見分布較傳統人格提示更貼近真實調查結果。平台支援自訂人口分布與多媒體題型，圖形介面可直接建置與分析問卷。