Agents Report | 代理人報告 (Page 77)

深度分析

M365 Copilot 在企業部署與治理：以 550 萬次會話分析工作型 AI 的應用與風險

本文基於大規模匿名資料，檢視 M365 Copilot Chat 在企業場域的實際使用情形。研究以約 5.5 百萬次會話為樣本，結合自下而上的使用者意圖分類與 O*NET 工作活動標註，揭示寫作與內容精修為主的使用型態，同時資訊檢索、分析決策與系統診斷等任務亦占重要比重。

深度分析

WALT：以 UV 紋理嵌入的虛擬人像水印方法與 RAW 基準評測

虛擬人像常被後製導致水印失效。本研究建立 RAW 基準並提出 WALT，將二進位訊息編碼為 UV 紋理，透過 3D 臉部重建把水印綁定於臉部幾何，提升對背景移除與放大裁切的抗性。實驗顯示 WALT 在多種 avatar 攻擊下保持高還原率，對應真實部署流程有實務意義。

深度分析

EchoDistill：以逐詞級對齊與GRPO強化音訊大模型（ALLM）在噪聲下的語義魯棒性

EchoDistill提出一種對齊式的「從噪到淨」自蒸餾訓練框架，利用凍結的乾淨音訊教師為帶噪學生提供語義參考，並在訓練時讓學生在噪聲條件下展開多條候選生成軌跡。透過群體相對策略優化（GRPO）結合逐詞級的令牌對齊獎勵與音訊感知的獎勵塑形，EchoDistill鼓勵模型在雜訊下依據真實聲學證據做出推理，而非退回語言先驗。

速報

研究：Anthropic 的 Claude 在消費者健康問答中的來源權威行為分析

本研究檢視Anthropic的Claude在回答消費者健康問題時如何呈現引用來源。以HealthSearchQA資料及AuthoritySignalsFramework評估來源權威，發現97.8%為既有機構來源、商業衛教僅2.2%，為Claude醫療應用建立引用基線。

速報

實證：多模態與多視角資訊融合提升文件分類準確度

研究系統性回顧139篇，整理資訊融合在文件分類的成效。研究構建統一框架，採質性分析與隨機效應統合量化成果。發現多模態融合使準確度平均提升5.28百分點且顯著，多視角融合在準確度、F1與召回亦有穩定但較小提升，且多數研究缺乏嚴謹統計驗證。值得注意。

人工智慧

人工智慧採用的Alpha衰竭：AI驅動的信號衰減與市場脆弱性分析

本文改寫自學術研究，探討當人工智慧廣泛進入資產管理後，三個相互強化的渠道——信號同質化、表現性侵蝕與紅后競賽——如何壓縮超額報酬（alpha）。作者建立一個理論模型，將可交易信號的半衰期表示為 h(φ) = ln2 / (θ + δ(φ))，並指出AI採用會使δ(φ)上升、半衰期凸性下降。

深度分析

lm_head 奇異值分解（SVD）：無推論下的 LLM 詞彙子空間稽核方法

本文以lm_head權重做奇異值分解（SVD），提出一種無需推論的靜態檢視法。只用五行PyTorch就能從左奇異向量抽出詞彙群集，揭露訓練語料偏向與可疑內容。多模型實驗顯示某些倫理敏感子空間在基礎與指令微調後仍存在，建議將該分析納入預發布安全稽核。

深度分析

烏克蘭法律文本的分詞效率與零樣本評估：Llama 4 Maverick、Qwen3 與 Nemotron Super 3 比較

本報告以烏克蘭法院判決為語料，系統化比較七款商業與研究基礎模型在分詞效率（tokenizer fertility）與下游法律任務的零樣本與少樣本表現。結果顯示：分詞肥度在模型間差異達約1.6倍，Qwen 系列在烏克蘭語上消耗顯著較多 token；

深度分析

MobileGym：以結構化狀態與高平行性實現可驗證的行動 GUI 模擬平台

MobileGym是一個在瀏覽器運行的輕量行動模擬環境，以結構化JSON表示完整環境狀態，聚焦互動真實性而非複製專有後端。平台讓狀態可讀、可寫、可快照與分叉，並以確定性判定取代易錯的視覺大模型評分，支援低資源下的大規模並行訓練。

深度分析

Claw-Anything：長時程、多服務、多裝置的個人助理評測基準

Claw-Anything 提出一個面向始終在線個人助理的新評測框架，擴大代理能觀測與操作的數位範圍。此基準結合三大維度：長期活動紀錄、互相依存的後端服務，以及跨裝置的 GUI 與 CLI 互動；並以 LLM 模擬器與自動化資料管線大規模生成場景。實驗發現，即便是最先進的閉源模型，在此環境下成功率遠低於既有基準；

深度分析

以 RHAE 衡量速度—深度權衡：AERA 在 ARC-AGI-3 的實驗與理論

ARC-AGI-3要求代理在陌生回合式環境中靠互動發現規則與勝條。本文提出AERA三階段架構：EXPLORE/VERIFY/PLAN，以信念熵為探索門檻並用預算平衡速度與深度。實驗指出公開25場可被非智慧策略通過，而私有55場競賽提交達到RHAE=0.30，凸顯基準集的判別限制。

L2IR

L2IR：以LLM輔助GNN揭露圖結構詐欺的潛在意圖

在關係被偽裝的圖形詐欺場景下，傳統圖神經網路因鄰居聚合會稀釋詐欺訊號而面臨挑戰。L2IR提出以大型語言模型（LLM）逐一推理使用者行為與連結背後的意圖，產生意圖感知的節點與邊表示，並結合自適應自訓練於標註稀少情況下強化偵測。實驗顯示，在兩個真實世界資料集上，L2IR能作為多種GNN偵測器的外掛提升效能，AUPRC有可觀增益。

Latest

M365 Copilot 在企業部署與治理：以 550 萬次會話分析工作型 AI 的應用與風險

WALT：以 UV 紋理嵌入的虛擬人像水印方法與 RAW 基準評測

EchoDistill：以逐詞級對齊與GRPO強化音訊大模型（ALLM）在噪聲下的語義魯棒性

研究：Anthropic 的 Claude 在消費者健康問答中的來源權威行為分析

實證：多模態與多視角資訊融合提升文件分類準確度

人工智慧採用的Alpha衰竭：AI驅動的信號衰減與市場脆弱性分析

lm_head 奇異值分解（SVD）：無推論下的 LLM 詞彙子空間稽核方法

烏克蘭法律文本的分詞效率與零樣本評估：Llama 4 Maverick、Qwen3 與 Nemotron Super 3 比較

MobileGym：以結構化狀態與高平行性實現可驗證的行動 GUI 模擬平台

Claw-Anything：長時程、多服務、多裝置的個人助理評測基準

以 RHAE 衡量速度—深度權衡：AERA 在 ARC-AGI-3 的實驗與理論

L2IR：以LLM輔助GNN揭露圖結構詐欺的潛在意圖