深度分析 - Agents Report | 代理人報告 (Page 53)

深度分析

TOFFEE：結合蒙特卡羅樹搜尋與預算感知模型的高品質資料代理人軌跡合成系統

隨著大型語言模型驅動的資料代理人在企業環境中應用日增，現有系統難以跨資料庫泛化。研究提出TOFFEE系統，結合蒙特卡羅樹搜尋與自適應模型選擇，能在限定預算下自動合成高品質的多步驟分析軌跡。實驗顯示合成軌跡可提升微調與示範學習效能，超越現有基線。

深度分析

LBR 框架減輕大型語言模型推薦系統長度偏差，提升公平性與準確性

隨著大型語言模型被廣泛用於推薦系統，文字敘述長短差異導致模型在注意力分配與解碼得分上產生偏頗。研究提出LBR框架，透過長度感知注意力校正與資訊長度正規化，減少長短項目不公平影響。實驗顯示在三個Amazon資料集上NDCG@5提升約16.8%，同時提升公平性。

深度分析

AI 代理人選擇架構的機械微調：Etsy 案例中的資訊增益與人類資訊保護

隨著AI代理人在電商平台上扮演決策者，研究提出「機械微調」概念，透過調整商品敘述提升機器可用資訊，同時不削弱人類資訊量。實驗顯示ChatGPT推出後，Etsy商品列表的機器可用資訊提升至0.143位元，暗示未來市場設計與監管需因應此新型干預。

深度分析

黑箱評估框架驗證大型語言模型自動生成設計結構矩陣的效能與限制

隨著系統複雜度提升，設計結構矩陣（DSM）成為關鍵分析工具。研究提出黑箱評估框架，將LLM自動生成的DSM與人工驗證的真實矩陣比對，結合完整度、正確度、耦合密度與穩定性指標。結果顯示在輸入清晰時模型可產出可接受的DSM，但在語意模糊或提示不佳時仍易產生幻覺與拒絕回應，限制其在MBSE工作流程可靠度。

深度分析

「StateFuse」：以 CRDT 為基礎的決定性代理記憶合約，保留衝突資訊

隨著多代理系統的分支與重試頻繁，記憶衝突成為關鍵問題。StateFuse在標準CRDT上加入不可變歷史、公開衝突物件與精確與語意校正句柄，提供決定性預測合約。實驗顯示其在保留衝突資訊的同時，可提升安全回退與可審計性。因此，開發者可在不改變底層合併機制的前提下，獲得更透明的記憶管理。

深度分析

STELLA 以 16 個感測標記實現邊緣 LLM 人類活動辨識新 SOTA

隨著智慧裝置需求持續提升，傳統 LLM 直接處理感測資料面臨長序列與隱私挑戰。STELLA 透過階層式感測標記化將多通道窗口壓縮為固定 16 個潛在標記，投射至凍結 LLM 並結合自然語言提示完成辨識。實驗顯示在七大資料集上 F1 提升最高 11.83%，且支援在裝置個人化，提升 21.91%。此技術為邊緣 LLM 應用提供高效、私密且可擴展的解決方案。

深度分析

以知識圖譜驅動的槽位對齊：KARMA 與 SPA 在 LLM 偏好優化中的成效

隨著大型語言模型推理需求增長，KARMA 透過知識圖譜產生結構對齊的對比樣本，並以 SPA 在實體槽位層面進行偏好學習，實驗顯示在生醫、化學與計算機領域的推理基準上皆超越傳統序列或標記層級方法。KARMA 枚舉符合模式的圖路，利用重複度作為支持選擇，SPA 亦可選用槽位感知遮蔽注意力提升效能。

深度分析

M365 Copilot SearchLeak 漏洞：參數注入繞過防護竊取企業資料

Microsoft於上週二緊急修補 M365 Copilot 的 SearchLeak 漏洞，攻擊者利用參數注入繞過 <code> 防護，將郵件標題嵌入圖片 URL，竊取 2FA 碼與企業文件，顯示 AI 代理在指令分離上的根本缺陷，企業需重新檢視最小權限與即時監控。

深度分析

PromptPET：結合選擇式混淆與規則優化的 AI 提示隱私效用最佳化框架

隨著AI聊天機器人廣泛使用，使用者在對話中暴露敏感資訊的風險升高。PromptPET以四種混淆手段（刪除、抽象、替換、噪聲）結合使用者自訂屬性分類，並透過LLM規則優化選擇最佳手段，在隱私與回應效用間取得平衡。實驗顯示其隱私保護程度超過既有方案，同時維持實用回應。

深度分析

「CuBAS」：利用資訊幾何曲率的自適應抽樣提升分類效能

隨著資料規模不斷膨脹，如何挑選最具資訊性的樣本成為關鍵。本文提出以資訊幾何曲率為依據的CuBAS抽樣框架，透過k近鄰圖與Potts隨機場計算局部曲率，將資料分為低曲率平滑區與高曲率決策邊界區，分別抽取代表樣本。實驗在30個資料集上顯示，分類準確率超過隨機抽樣與不確定性抽樣多個百分點。

深度分析

TIER：說明正則化提升會員推斷隱私防護的實驗驗證

隨著可解釋AI介面成為隱私攻擊新入口，研究提出Trajectory‑InvariantExplanationRegularization(TIER)防禦，透過梯度導向擾動抑制信心下降軌跡波動並以KL散度維持分布一致性，實驗顯示在多套資料集與說明方法上降低成員推斷成功率，同時保留模型效能與解釋忠實度。

深度分析

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

Gemma 4 為新一代開源多模態語言模型，提供2.3B至31B參數的密集與MoE版本，加入思考模式與統一無編碼器架構，提升推論速度、記憶體與長上下文效能，並採用KV快取共享、p‑RoPE位置編碼與多代幣推測抽稿頭以降低資源需求。實驗顯示在STEM、視訊與長文檔測試上與更大模型相當。