深度分析 - Agents Report | 代理人報告 (Page 50)

深度分析

最小行動距離（MAD）自監督學習提升強化學習狀態表示

本研究針對強化學習的狀態表示，提出僅靠狀態軌跡學習最小行動距離（MAD）的方法，透過自監督嵌入使狀態間距離對應MAD，並在確定與隨機、離散與連續環境中驗證其高精度，顯示在目標條件強化學習與獎勵形塑上具實質效益。此外，該框架支援非對稱距離近似，克服以往對稱方法無法捕捉環境方向性的限制。

深度分析

「實證計算」：以大型語言模型 (LLM) 驅動的全新程式設計範式與實驗結果

隨著大型語言模型生成程式碼的普及，研究者提出「實證計算」概念，透過自然語言提示直接求解問題，結果以最可能正確為依據。實驗顯示在排序與子集和等任務上可達近乎正確，相較於傳統程式化流程，實證計算免除格式合約，提供更彈性但亦帶來正確性不確定性，預計將推動AI工具安全基礎設施的重新設計。

深度分析

Travel Agent Compassion (TAC) 基準揭示大型語言模型在 AI 旅行代理人中的動物福利缺口

研究指出，隨著大型語言模型被當作自動旅行代理人，需評估其對動物福利的隱性偏好。研究團隊提出首個代理人基準 TAC，透過十二組旅遊情境測試七大前沿模型。結果顯示所有模型在預設設定下均低於 64% 基準，最佳僅 53%。加入關懷指示可提升部分模型表現 47 至 63 個百分點，研究呼籲將此類評測納入歐盟 AI 治理框架。

深度分析

圖卷積注意力 (GCA) 與光譜注意力：提升圖去噪與圖擴散模型效能的新方法

圖去噪是圖學習的基礎問題，本文提出光譜注意力與圖卷積注意力（GCA）作為對線性注意力的改進，利用圖的頻譜資訊進行更精確的去噪與擴散。實驗顯示在合成與真實資料上，GCA 可顯著提升去噪效果，且在DiGress中移除昂貴的特徵計算仍保持競爭力。研究者認為此方法將推動圖生成模型的效率與可擴展性。

深度分析

RSF‑GLLM：可微分軟流與動態門控彌合知識圖譜多跳問答語意鴻溝

多跳知識圖譜問答常因中繼節點與問題詞彙無交集而失效。研究提出RSF‑GLLM，利用可微軟軟流與動態門控在圖上傳遞概率，抽取離散推理路徑再以LLM生成答案。實驗顯示在WebQSP與CWQ上達到90%以上命中率，推論速度提升21倍，此架構亦為大型模型降低資源需求、提升商業化可行性鋪路。

深度分析

ILP 助力神經符號弱監督：提升多實例部分標籤學習的可解釋性與魯棒性

弱監督在標籤稀疏或噪聲情況下仍可訓練模型，但缺乏可解釋性。研究將歸納式邏輯程式設計結合 MI‑PLL，提供結構化關係約束，提升透明度與魯棒性。ILP 定義邏輯假設空間，明確描述標籤轉換規則，使預測可被領域知識驗證，對醫療與金融等高風險領域尤為重要。實驗顯示錯誤偵測率顯著降低。

深度分析

Cortex 框架以 32 種技能原語實現長時程機器人任務的雙向對齊

近期長時程機器人操作受限於單一回饋的 Markov 偏差，Cortex 透過雙向對齊的規劃介面，將高層語意轉化為 32 種可執行技巧，並加入物理可行性原則，自動標註大量影片與模擬資料。實驗證實其在長時程基準上提升數個百分點，並成功零樣本完成複雜化學任務。

深度分析

利用 GSPO 強化學習提升 LLM 生成 BPMN 流程的語法與語意品質

大型語言模型（LLM）已能從自然語言敘述產出 BPMN 流程圖，但僅靠監督微調（SFT）會受限於訓練資料的模式。研究以 Group Sequence Policy Optimization（GSPO）結合 38 項自動化指標，對 Llama 3.1 8B 與 Qwen 2.5 14B 兩大模型進行 48 種獎勵配置的實驗。

深度分析

PVCap：結合 PseudoCap 與 VoxelCapNet 的高效 3D 密集描述框架

3D密集描述是新興視覺語言任務，PVCap利用PseudoCap隨機混合實例產生多樣空間布局，並以教師‑學生框架生成偽標籤，同時採用VoxelCapNet以體素特徵提升說明能力。實驗在ScanRefer與Nr3D上分別達到89.57%與61.61%CIDEr@0.5IoU，顯示其領先表現。

深度分析

REDDIT：重播分布編輯提升 Whisper 系列時間戳校正與 ASR 穩定性

研究指出自動語音辨識模型在長時間非語音段落會出現時間戳漂移。提出REDDIT兩階段重播分布編輯方法，利用自動生成的校正資料修正時間戳，同時避免遺忘問題。實驗顯示在Whisper‑tiny上將長段mIoU提升至95%。此方法僅更新0.6%參數，無需額外對齊模組，提升實務部署的可靠性。

深度分析

HeRo：層級式詞彙路由實現 LLM 隱寫水印的選擇性揭露

隨著大語言模型廣泛應用，辨識AI生成文本成為挑戰。研究提出HeRo層級詞彙路由水印，允許依授權層級解碼部分隱藏資訊。實驗顯示在保持文本品質的同時，偵測精準且延遲低。此外，HeRo保證抽樣分布無偏，兼具對抗文字擾動的韌性，且在GPU上批次運算效率高於現有多位元水印方案。

深度分析

「PolicyShiftGuard」：雙階段訓練模型實現政策適應影像安全防護

隨著不同產品與地區的內容政策變動，傳統影像安全防護難以因應。研究推出PolicyShiftBench與PolicyShiftGuard，前者提供2,000筆政策變化測試，後者結合隨機政策SFT與邊界配對適應，使模型在政策轉換下F1達76.9、PSS達72.1，顯示政策感知大幅提升安全判斷彈性。