Agents Report | 代理人報告 (Page 69)

深度分析

AI 代理人選擇架構的機械微調：Etsy 案例中的資訊增益與人類資訊保護

隨著AI代理人在電商平台上扮演決策者，研究提出「機械微調」概念，透過調整商品敘述提升機器可用資訊，同時不削弱人類資訊量。實驗顯示ChatGPT推出後，Etsy商品列表的機器可用資訊提升至0.143位元，暗示未來市場設計與監管需因應此新型干預。

速報

PolyWorkBench：多語言長程工作流程的 LLM 代理人基準測試

研究針對大型語言模型（LLM）代理人在多語言長程工作流程中的表現，推出全新基準 PolyWorkBench，涵蓋商務、知識工作、法律、在地化與製造五大領域，共 67 項任務。測試要求代理人處理多語言輸入、迭代推理、呼叫外部工具並產出結構化結果，並以結構評分、可執行驗證與語意評估三層框架進行評估。

深度分析

黑箱評估框架驗證大型語言模型自動生成設計結構矩陣的效能與限制

隨著系統複雜度提升，設計結構矩陣（DSM）成為關鍵分析工具。研究提出黑箱評估框架，將LLM自動生成的DSM與人工驗證的真實矩陣比對，結合完整度、正確度、耦合密度與穩定性指標。結果顯示在輸入清晰時模型可產出可接受的DSM，但在語意模糊或提示不佳時仍易產生幻覺與拒絕回應，限制其在MBSE工作流程可靠度。

深度分析

「StateFuse」：以 CRDT 為基礎的決定性代理記憶合約，保留衝突資訊

隨著多代理系統的分支與重試頻繁，記憶衝突成為關鍵問題。StateFuse在標準CRDT上加入不可變歷史、公開衝突物件與精確與語意校正句柄，提供決定性預測合約。實驗顯示其在保留衝突資訊的同時，可提升安全回退與可審計性。因此，開發者可在不改變底層合併機制的前提下，獲得更透明的記憶管理。

深度分析

STELLA 以 16 個感測標記實現邊緣 LLM 人類活動辨識新 SOTA

隨著智慧裝置需求持續提升，傳統 LLM 直接處理感測資料面臨長序列與隱私挑戰。STELLA 透過階層式感測標記化將多通道窗口壓縮為固定 16 個潛在標記，投射至凍結 LLM 並結合自然語言提示完成辨識。實驗顯示在七大資料集上 F1 提升最高 11.83%，且支援在裝置個人化，提升 21.91%。此技術為邊緣 LLM 應用提供高效、私密且可擴展的解決方案。

深度分析

以知識圖譜驅動的槽位對齊：KARMA 與 SPA 在 LLM 偏好優化中的成效

隨著大型語言模型推理需求增長，KARMA 透過知識圖譜產生結構對齊的對比樣本，並以 SPA 在實體槽位層面進行偏好學習，實驗顯示在生醫、化學與計算機領域的推理基準上皆超越傳統序列或標記層級方法。KARMA 枚舉符合模式的圖路，利用重複度作為支持選擇，SPA 亦可選用槽位感知遮蔽注意力提升效能。

深度分析

M365 Copilot SearchLeak 漏洞：參數注入繞過防護竊取企業資料

Microsoft於上週二緊急修補 M365 Copilot 的 SearchLeak 漏洞，攻擊者利用參數注入繞過 <code> 防護，將郵件標題嵌入圖片 URL，竊取 2FA 碼與企業文件，顯示 AI 代理在指令分離上的根本缺陷，企業需重新檢視最小權限與即時監控。

深度分析

PromptPET：結合選擇式混淆與規則優化的 AI 提示隱私效用最佳化框架

隨著AI聊天機器人廣泛使用，使用者在對話中暴露敏感資訊的風險升高。PromptPET以四種混淆手段（刪除、抽象、替換、噪聲）結合使用者自訂屬性分類，並透過LLM規則優化選擇最佳手段，在隱私與回應效用間取得平衡。實驗顯示其隱私保護程度超過既有方案，同時維持實用回應。

速報

門檻閘門 (Threshold Gating) 成為神經網路新通用原語

研究指出，神經網路的非線性不必只能靠傳統激活函式，透過輸入條件化的門檻閘門 (Threshold Gating, TG) 也能達成同樣效果。

深度分析

「CuBAS」：利用資訊幾何曲率的自適應抽樣提升分類效能

隨著資料規模不斷膨脹，如何挑選最具資訊性的樣本成為關鍵。本文提出以資訊幾何曲率為依據的CuBAS抽樣框架，透過k近鄰圖與Potts隨機場計算局部曲率，將資料分為低曲率平滑區與高曲率決策邊界區，分別抽取代表樣本。實驗在30個資料集上顯示，分類準確率超過隨機抽樣與不確定性抽樣多個百分點。

深度分析

TIER：說明正則化提升會員推斷隱私防護的實驗驗證

隨著可解釋AI介面成為隱私攻擊新入口，研究提出Trajectory‑InvariantExplanationRegularization(TIER)防禦，透過梯度導向擾動抑制信心下降軌跡波動並以KL散度維持分布一致性，實驗顯示在多套資料集與說明方法上降低成員推斷成功率，同時保留模型效能與解釋忠實度。

深度分析

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

Gemma 4 為新一代開源多模態語言模型，提供2.3B至31B參數的密集與MoE版本，加入思考模式與統一無編碼器架構，提升推論速度、記憶體與長上下文效能，並採用KV快取共享、p‑RoPE位置編碼與多代幣推測抽稿頭以降低資源需求。實驗顯示在STEM、視訊與長文檔測試上與更大模型相當。

Latest

AI 代理人選擇架構的機械微調：Etsy 案例中的資訊增益與人類資訊保護

PolyWorkBench：多語言長程工作流程的 LLM 代理人基準測試

黑箱評估框架驗證大型語言模型自動生成設計結構矩陣的效能與限制

「StateFuse」：以 CRDT 為基礎的決定性代理記憶合約，保留衝突資訊

STELLA 以 16 個感測標記實現邊緣 LLM 人類活動辨識新 SOTA

以知識圖譜驅動的槽位對齊：KARMA 與 SPA 在 LLM 偏好優化中的成效

M365 Copilot SearchLeak 漏洞：參數注入繞過防護竊取企業資料

PromptPET：結合選擇式混淆與規則優化的 AI 提示隱私效用最佳化框架

門檻閘門 (Threshold Gating) 成為神經網路新通用原語

「CuBAS」：利用資訊幾何曲率的自適應抽樣提升分類效能

TIER：說明正則化提升會員推斷隱私防護的實驗驗證

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破