Agents Report | 代理人報告 (Page 74)

深度分析

黑箱評估框架驗證大型語言模型自動生成設計結構矩陣的效能與限制

隨著系統複雜度提升，設計結構矩陣（DSM）成為關鍵分析工具。研究提出黑箱評估框架，將LLM自動生成的DSM與人工驗證的真實矩陣比對，結合完整度、正確度、耦合密度與穩定性指標。結果顯示在輸入清晰時模型可產出可接受的DSM，但在語意模糊或提示不佳時仍易產生幻覺與拒絕回應，限制其在MBSE工作流程可靠度。

深度分析

「StateFuse」：以 CRDT 為基礎的決定性代理記憶合約，保留衝突資訊

隨著多代理系統的分支與重試頻繁，記憶衝突成為關鍵問題。StateFuse在標準CRDT上加入不可變歷史、公開衝突物件與精確與語意校正句柄，提供決定性預測合約。實驗顯示其在保留衝突資訊的同時，可提升安全回退與可審計性。因此，開發者可在不改變底層合併機制的前提下，獲得更透明的記憶管理。

深度分析

STELLA 以 16 個感測標記實現邊緣 LLM 人類活動辨識新 SOTA

隨著智慧裝置需求持續提升，傳統 LLM 直接處理感測資料面臨長序列與隱私挑戰。STELLA 透過階層式感測標記化將多通道窗口壓縮為固定 16 個潛在標記，投射至凍結 LLM 並結合自然語言提示完成辨識。實驗顯示在七大資料集上 F1 提升最高 11.83%，且支援在裝置個人化，提升 21.91%。此技術為邊緣 LLM 應用提供高效、私密且可擴展的解決方案。

深度分析

以知識圖譜驅動的槽位對齊：KARMA 與 SPA 在 LLM 偏好優化中的成效

隨著大型語言模型推理需求增長，KARMA 透過知識圖譜產生結構對齊的對比樣本，並以 SPA 在實體槽位層面進行偏好學習，實驗顯示在生醫、化學與計算機領域的推理基準上皆超越傳統序列或標記層級方法。KARMA 枚舉符合模式的圖路，利用重複度作為支持選擇，SPA 亦可選用槽位感知遮蔽注意力提升效能。

深度分析

M365 Copilot SearchLeak 漏洞：參數注入繞過防護竊取企業資料

Microsoft於上週二緊急修補 M365 Copilot 的 SearchLeak 漏洞，攻擊者利用參數注入繞過 <code> 防護，將郵件標題嵌入圖片 URL，竊取 2FA 碼與企業文件，顯示 AI 代理在指令分離上的根本缺陷，企業需重新檢視最小權限與即時監控。

深度分析

PromptPET：結合選擇式混淆與規則優化的 AI 提示隱私效用最佳化框架

隨著AI聊天機器人廣泛使用，使用者在對話中暴露敏感資訊的風險升高。PromptPET以四種混淆手段（刪除、抽象、替換、噪聲）結合使用者自訂屬性分類，並透過LLM規則優化選擇最佳手段，在隱私與回應效用間取得平衡。實驗顯示其隱私保護程度超過既有方案，同時維持實用回應。

速報

門檻閘門 (Threshold Gating) 成為神經網路新通用原語

研究指出，神經網路的非線性不必只能靠傳統激活函式，透過輸入條件化的門檻閘門 (Threshold Gating, TG) 也能達成同樣效果。

深度分析

「CuBAS」：利用資訊幾何曲率的自適應抽樣提升分類效能

隨著資料規模不斷膨脹，如何挑選最具資訊性的樣本成為關鍵。本文提出以資訊幾何曲率為依據的CuBAS抽樣框架，透過k近鄰圖與Potts隨機場計算局部曲率，將資料分為低曲率平滑區與高曲率決策邊界區，分別抽取代表樣本。實驗在30個資料集上顯示，分類準確率超過隨機抽樣與不確定性抽樣多個百分點。

深度分析

TIER：說明正則化提升會員推斷隱私防護的實驗驗證

隨著可解釋AI介面成為隱私攻擊新入口，研究提出Trajectory‑InvariantExplanationRegularization(TIER)防禦，透過梯度導向擾動抑制信心下降軌跡波動並以KL散度維持分布一致性，實驗顯示在多套資料集與說明方法上降低成員推斷成功率，同時保留模型效能與解釋忠實度。

深度分析

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

Gemma 4 為新一代開源多模態語言模型，提供2.3B至31B參數的密集與MoE版本，加入思考模式與統一無編碼器架構，提升推論速度、記憶體與長上下文效能，並採用KV快取共享、p‑RoPE位置編碼與多代幣推測抽稿頭以降低資源需求。實驗顯示在STEM、視訊與長文檔測試上與更大模型相當。

深度分析

IsoLoCo 與 Iso‑C：提升 DiLoCo 低通信分散式訓練效能的模型合併方法

隨著大型語言模型訓練成本攀升，分散式低通信方法 DiLoCo 透過本地多步更新降低通訊，但隨著工作節點與本地步數增加，效能會退化。研究將模型合併技術引入 DiLoCo，利用 Iso‑C 及其改良版 IsoLoCo 取代簡單平均，實驗顯示在多工作者設定下顯著縮小與全同步資料平行訓練的差距。

深度分析

利用大型語言模型注意力機制提升 Diff Risk Score 之程式碼變更風險解釋

在大型科技公司，研究者利用LLM產生的注意力權重，將程式碼差異（diff）映射至行、區塊與檔案，以突出高風險區段。實驗顯示，標示前兩個最危險區塊即可覆蓋53.85%的故障行，且僅需審查約26%的變更行數。此方法不需額外訓練，能在即時推論時提供低延遲提示，適用於大型開發流程。

Latest

黑箱評估框架驗證大型語言模型自動生成設計結構矩陣的效能與限制

「StateFuse」：以 CRDT 為基礎的決定性代理記憶合約，保留衝突資訊

STELLA 以 16 個感測標記實現邊緣 LLM 人類活動辨識新 SOTA

以知識圖譜驅動的槽位對齊：KARMA 與 SPA 在 LLM 偏好優化中的成效

M365 Copilot SearchLeak 漏洞：參數注入繞過防護竊取企業資料

PromptPET：結合選擇式混淆與規則優化的 AI 提示隱私效用最佳化框架

門檻閘門 (Threshold Gating) 成為神經網路新通用原語

「CuBAS」：利用資訊幾何曲率的自適應抽樣提升分類效能

TIER：說明正則化提升會員推斷隱私防護的實驗驗證

「Gemma 4」多模態語言模型：思考模式與長上下文效能新突破

IsoLoCo 與 Iso‑C：提升 DiLoCo 低通信分散式訓練效能的模型合併方法

利用大型語言模型注意力機制提升 Diff Risk Score 之程式碼變更風險解釋