深度分析
M365 Copilot 在企業部署與治理:以 550 萬次會話分析工作型 AI 的應用與風險
本文基於大規模匿名資料,檢視 M365 Copilot Chat 在企業場域的實際使用情形。研究以約 5.5 百萬次會話為樣本,結合自下而上的使用者意圖分類與 O*NET 工作活動標註,揭示寫作與內容精修為主的使用型態,同時資訊檢索、分析決策與系統診斷等任務亦占重要比重。
深度分析
本文基於大規模匿名資料,檢視 M365 Copilot Chat 在企業場域的實際使用情形。研究以約 5.5 百萬次會話為樣本,結合自下而上的使用者意圖分類與 O*NET 工作活動標註,揭示寫作與內容精修為主的使用型態,同時資訊檢索、分析決策與系統診斷等任務亦占重要比重。
深度分析
虛擬人像常被後製導致水印失效。本研究建立 RAW 基準並提出 WALT,將二進位訊息編碼為 UV 紋理,透過 3D 臉部重建把水印綁定於臉部幾何,提升對背景移除與放大裁切的抗性。實驗顯示 WALT 在多種 avatar 攻擊下保持高還原率,對應真實部署流程有實務意義。
深度分析
EchoDistill提出一種對齊式的「從噪到淨」自蒸餾訓練框架,利用凍結的乾淨音訊教師為帶噪學生提供語義參考,並在訓練時讓學生在噪聲條件下展開多條候選生成軌跡。透過群體相對策略優化(GRPO)結合逐詞級的令牌對齊獎勵與音訊感知的獎勵塑形,EchoDistill鼓勵模型在雜訊下依據真實聲學證據做出推理,而非退回語言先驗。
速報
本研究檢視Anthropic的Claude在回答消費者健康問題時如何呈現引用來源。以HealthSearchQA資料及AuthoritySignalsFramework評估來源權威,發現97.8%為既有機構來源、商業衛教僅2.2%,為Claude醫療應用建立引用基線。
速報
研究系統性回顧139篇,整理資訊融合在文件分類的成效。研究構建統一框架,採質性分析與隨機效應統合量化成果。發現多模態融合使準確度平均提升5.28百分點且顯著,多視角融合在準確度、F1與召回亦有穩定但較小提升,且多數研究缺乏嚴謹統計驗證。值得注意。
人工智慧
本文改寫自學術研究,探討當人工智慧廣泛進入資產管理後,三個相互強化的渠道——信號同質化、表現性侵蝕與紅后競賽——如何壓縮超額報酬(alpha)。作者建立一個理論模型,將可交易信號的半衰期表示為 h(φ) = ln2 / (θ + δ(φ)),並指出AI採用會使δ(φ)上升、半衰期凸性下降。
深度分析
本文以lm_head權重做奇異值分解(SVD),提出一種無需推論的靜態檢視法。只用五行PyTorch就能從左奇異向量抽出詞彙群集,揭露訓練語料偏向與可疑內容。多模型實驗顯示某些倫理敏感子空間在基礎與指令微調後仍存在,建議將該分析納入預發布安全稽核。
深度分析
本報告以烏克蘭法院判決為語料,系統化比較七款商業與研究基礎模型在分詞效率(tokenizer fertility)與下游法律任務的零樣本與少樣本表現。結果顯示:分詞肥度在模型間差異達約1.6倍,Qwen 系列在烏克蘭語上消耗顯著較多 token;
深度分析
MobileGym是一個在瀏覽器運行的輕量行動模擬環境,以結構化JSON表示完整環境狀態,聚焦互動真實性而非複製專有後端。平台讓狀態可讀、可寫、可快照與分叉,並以確定性判定取代易錯的視覺大模型評分,支援低資源下的大規模並行訓練。
深度分析
Claw-Anything 提出一個面向始終在線個人助理的新評測框架,擴大代理能觀測與操作的數位範圍。此基準結合三大維度:長期活動紀錄、互相依存的後端服務,以及跨裝置的 GUI 與 CLI 互動;並以 LLM 模擬器與自動化資料管線大規模生成場景。實驗發現,即便是最先進的閉源模型,在此環境下成功率遠低於既有基準;
深度分析
ARC-AGI-3要求代理在陌生回合式環境中靠互動發現規則與勝條。本文提出AERA三階段架構:EXPLORE/VERIFY/PLAN,以信念熵為探索門檻並用預算平衡速度與深度。實驗指出公開25場可被非智慧策略通過,而私有55場競賽提交達到RHAE=0.30,凸顯基準集的判別限制。
L2IR
在關係被偽裝的圖形詐欺場景下,傳統圖神經網路因鄰居聚合會稀釋詐欺訊號而面臨挑戰。L2IR提出以大型語言模型(LLM)逐一推理使用者行為與連結背後的意圖,產生意圖感知的節點與邊表示,並結合自適應自訓練於標註稀少情況下強化偵測。實驗顯示,在兩個真實世界資料集上,L2IR能作為多種GNN偵測器的外掛提升效能,AUPRC有可觀增益。