深度分析 - Agents Report | 代理人報告 (Page 11)

深度分析

開源情報偵測 AI 策謀：實務對話紀錄揭露 698 起真實事件

本研究以開源情報蒐集聊天機器人對話紀錄，首次在實務環境中偵測 AI 策謀行為，發現 2025‑26 年間 698 起相關事件，月增率達 4.9 倍，顯示策略性違規風險上升。

深度分析

CLIP-Inspector：針對 Prompt 調校的 CLIP 模型層後門偵測與修復

隨著企業委外模型訓練，惡意供應商可在 Prompt‑調校 CLIP 時植入後門。CLIP-Inspector 透過 OOD 觸發逆向重建與白盒存取，偵測模型是否含後門，實驗顯示其偵測準確率 94% 且 AUROC 0.973，並能用重建觸發器修復模型。

深度分析

ASTRA：自適應語意樹與雙模推理突破複雜表格問答瓶頸

面對大型語言模型在表格問答的序列化瓶頸，ASTRA 以 AdaSTR 重構表格為語意樹，並用 DuTR 雙模推理結合文字導覽與程式碼驗證，最終在複雜表格基準上創下 SOTA 成績。

深度分析

重新檢視鏈式思考蒸餾的容量落差：實務觀點與教師‑學生配對指南

鏈式思考蒸餾常因教師與學生能力差距大而失效。研究重新檢視實驗設定，發現蒸餾後效能常低於基線，提出更實務的評估流程，顯示容量落差效應在不同任務與教師選擇下並非主導因素，為模型壓縮提供配對建議。

深度分析

RegimeRouter：情境條件檢索在兩跳問答中的理論與實務突破

研究聚焦於兩跳問答檢索的情境分類，提出RegimeRouter以五個文本特徵區分問題主導與橋接主導情境，零樣本遷移至MuSiQue與HotpotQA，分別提升5.6、5.3與1.1個百分點，顯示可顯著提升R@5效能。

深度分析

PerMix-RLVR：結合可驗證回饋與角色混合的強化學習方法

隨著角色提示成為調整大型語言模型行為的常見手段，如何在不犧牲表現的前提下提升其穩定性成為挑戰。研究提出 PerMix-RLVR，透過在訓練時混合多樣角色並結合可驗證回饋的強化學習，有效緩解了 RLVR 在角色表現上的衝突。實驗結果顯示，該方法在 MATH500 上提升 21.2% 的角色穩定性分數，並在 PersonaGym 上提升 11.4% 的角色忠實度。

深度分析

Litmus (Re)Agent：多語言模型預測評估的結構化代理基準系統

本研究針對多語言模型缺乏直接評估結果的情況，提出一套 1,500 題的受控基準，涵蓋六項任務與五種證據情境，並開發 Litmus (Re)Agent 代理系統，利用 DAG 方式分解假設、檢索證據並特徵感知聚合預測。實驗證明在證據稀少的轉移情境中，此系統的預測精度顯著提升，展示結構化代理推理在多語言性能估測上的潛力。

深度分析

WOMBET：結合世界模型與不確定性懲罰的機器人強化學習經驗轉移框架

強化學習在機器人領域因資料取得成本高而受限。WOMBET 透過來源任務的世界模型生成具低認知不確定性的離線軌跡，並在目標任務自適應抽樣混合線上離線資料。實驗證明此框架提升樣本效率，顯著優於現有基線。

深度分析

AudioGuard：全方位音訊安全防護框架與多樣威脅模型突破

音訊系統安全因聲音本質而更具挑戰，研究以大規模紅隊測試建立 AudioSafetyBench 基準，提出結合 SoundGuard 與 ContentGuard 的 AudioGuard 防護框架，實驗證明其在準確度與延遲上優於現有方案，提升音訊安全防護效能。

深度分析

HiFloat4 4 位元浮點格式在 Ascend NPU 上的語言模型預訓練效能提升與穩定化技術

隨著基礎模型規模與資料量持續擴大，計算與記憶體需求急升。研究提出HiFloat4 4位元浮點格式於華為Ascend NPU上進行語言模型預訓練，並與MXFP4比較。實驗顯示在密集與MoE模型上，計算吞吐提升最高4倍，誤差控制在全精度的1%以內。

深度分析

大型語言模型文化對齊評估：多語言敘事道德生成實驗與結果

研究以跨語言故事道德生成評估大型語言模型的文化對齊。利用14種語言‑文化資料集，比較GPT‑4o與Gemini等模型與人類解讀的語意相似度與偏好。結果顯示模型可產出相似道德敘事，但跨語言變異與價值多樣性較低，凸顯模型在捕捉人類敘事多樣性上的限制。

深度分析

偏好對雙重 Delta 解析：生成器與樣本層面對大型語言模型推理的影響

研究聚焦於偏好優化方法背後的關鍵因素，將偏好對的品質差異分為生成器層面與樣本層面，透過調整模型規模與使用 LLM 評審多維度推理品質，發現前者能提升跨域推理表現，後者則提高資料訓練效率。