深度分析 - Agents Report | 代理人報告 (Page 68)

深度分析

「MADreMIA」：鏈式再生成提升跨模態生成式 AI 會員推斷攻擊效能的隱私稽核框架

隨著生成式 AI 快速擴張，資料隱私與版權審核需求激增。研究提出 MADreMIA 框架，利用鏈式再生成放大成員訊號，跨視覺、語言與音訊模型皆可應用。實驗顯示在低誤報率下可顯著提升成員與非成員區分，為隱私稽核提供更可靠工具。此技術預計將促進生成式 AI 的合規開發，並引發對模型可解釋性與濫用防護的討論。

深度分析

CHERRY-1.8B：選擇性監督、深層壓縮與專家融合提升語言模型效能

面對大型語言模型訓練成本高企，研究提出以選擇性監督聚焦語意關鍵token、層級深度壓縮與MoE專家融合三項技術。實驗顯示，在僅500步、15%標註成本下，CHERRY-1.8B的效能接近全序列訓練，同時降低參數與計算需求。此方法為資源受限環境提供可行路徑。

深度分析

利用 XAI 引導特徵遮罩提升聯邦學習在非 IID 環境下的效能與隱私

聯邦學習因客戶端資料分布不一致而性能受損，研究提出FedXDS以XAI的特徵歸因指導資料共享，僅傳送屬於模型決策關鍵的特徵並加入度量差分隱私保護。實驗顯示在多客戶端與高異質性情境下，FedXDS能提升準確率與收斂速度，同時抵禦成員推論與特徵反演攻擊。此外，該方法僅需一次反向傳播即可取得歸因圖，減少計算開銷。

深度分析

視覺語言模型在非對稱對話中過度預測共識的偏誤：以 Qwen3‑VL 與 Gemma3 為例

本研究以HCRCMapTask對話資料檢測視覺語言模型在資訊不對稱情境下判斷參與者是否已達成共同理解。結果顯示，提供真實地圖圖像或文字說明會使模型過度預測對齊，將潛在的參照重疊誤當成已建立的共識；而非資訊性圖像則降低此偏誤。此偏誤可能限制模型在真實協作對話中的可靠性。

深度分析

使用 SAE 進行概念偵測與取代（PER），在擴散模型中實現高效概念刪除與低失真

隨著文字生成圖像模型廣泛部署，如何在不重新訓練的情況下刪除特定概念成為關鍵。研究利用稀疏自編碼器偵測目標物件，改以同層特徵取代而非直接在潛在空間干預。實驗顯示，此檢測式取代大幅降低視覺失真，提升概念刪除效果。在UnlearnCanvas測試中平均表現達95.33%，亦在NSFW過濾中展現優勢。

深度分析

WorldRoamBench：量化互動式世界模型長時間穩定性的四大指標

隨著互動式世界模型逐漸可即時生成開放環境，現有評測多只測短片段且忽視物理與記憶一致性。研究團隊推出WorldRoamBench，提供逐幀動作、視覺漂移、物理可控性與記憶重建四大指標，並測試十餘模型。結果顯示即使最佳模型亦僅在各指標上取得中等分數，仍遠未達長時間穩定要求。

深度分析

Anthropic 解除 Claude Fable 5 出口管制，全球存取恢復與企業 AI 部署新局

美國撤銷對 Anthropic Claude Fable 5 的緊急出口管制，模型重新向全球開放，包括在 AWS、Google Cloud、Microsoft Foundry 的服務。Anthropic 以每百萬輸入代幣 10 美元、輸出代幣 50 美元的價格提供，並在七天內對部分訂閱方案免收使用費。此舉快速恢復企業 AI 工作流，同時突顯大模型供應受到政策波動、成本高昂與安全治理的多重挑戰，並促使企業重新評估閉源模型與本地開源替代方案的取捨，以及市場競爭格局的變化。

深度分析

Flare‑AI：跨組織協作的 AI 漏洞回報與機器可讀報告解決方案

隨著AI系統風險升高，研究者發現現有缺陷回報渠道分散且不易發現。Flare‑AI以條件式分類與機器可讀格式，提供單一提交即可同步傳送至多方開發者與協調機構。此舉降低重複回報，提升跨組織協作效率。此外，平台支援匿名提交與條件化路由，讓回報者可自行決定是否公開細節，同時確保相關單位能即時取得關鍵資訊。

深度分析

從 mAP 迷思到時空推理：YOLO-3D 與 TemporalLens 的實驗分析

單階段影片偵測器雖能提升準確率，但常被質疑僅依賴單一影格而非真正推理時間脈絡。本研究提出 YOLO-3D 架構，透過維持骨幹網路時空深度提升偵測效能，並設計 TemporalLens 診斷框架，利用受控擾動量化模型對時間資訊的依賴度。結果顯示 3D 模型在動態場景中具備更強魯棒性，證明時空深度保留是提升影片推理能力的核心關鍵。

深度分析

PSALM 框架：量化大型語言模型風格相似性以符合歐盟版權實質相似標準

隨著大型語言模型產生的文字可能觸犯歐盟版權法，研究提出 PSALM 框架以評估風格相似性，透過十項評量量化敘事、角色、世界觀等維度，實驗顯示細部風格的侵用遠超文字逐字比對，且負向偏好優化可降低相似度。此結果顯示僅靠文字去重不足以確保合規，未來法規與模型開發將需納入風格檢測。

深度分析

Transformer 貝葉斯教師：自適應 ATE 實驗的深度學習框架

隨機臨床試驗與線上A/B測試需要兼顧推論有效與效率，研究提出以Transformer作為貝葉斯實驗者，透過注意力聚合歷史資料模擬貝葉斯後驗Neyman分配，實驗顯示可自動適應結果平滑度並接近最佳配置，提升ATE估計精度，此方法亦可延伸至政策評估與資安風險測試，提供可解釋且自動化的實驗設計框架。

深度分析

AET 框架與 AETDICE 演算法：離線非線性多目標強化學習的統一解法

多目標強化學習面臨非線性偏好挑戰，研究提出AET框架統一SER與ESR並開發離線算法AETDICE，成功在靜態資料集上優化多種非線性目標，展示出策略差異與未來應用潛力。此方法利用DICE式密度比估計在增廣狀態空間中進行樣本優化，突破以往無法同時處理兩層非線性之限制，為未來公平與風險敏感的AI決策提供新工具。