深度分析 - Agents Report | 代理人報告 (Page 70)

深度分析

Arena‑T2I Hard 基準與依存檢查清單：提升文本生成影像模型忠實度與美感的雙重方案

隨著文本生成影像模型進入實務工作，單一美感評分已不足以衡量忠實度。研究推出Arena‑T2I Hard基準，收錄310筆實際複雜指令，並以依存檢查清單將每項約30個是/否約束分解為DAG，結合美感BT獎勵的正規化訓練，使模型在忠實度與美感上同時提升，此方法在SD3.5‑Medium與FLUX.1‑dev上的MMRB2配對測試中，分別超過單一獎勵與四獎勵基線5%以上。

深度分析

LuckyStar 111B：多語言混合推理與工具使用的 4 位元量化企業代理人模型

在記憶與服務資源受限的企業環境中，LuckyStar 111B 透過前置詞條切換提供推理與非推理模式，結合多語言微調、可驗證獎勵強化工具使用，並以4位元量化支援單卡部署。實驗顯示其在數學推理、函式呼叫與NL2SQL任務上超越基礎模型，且保持韓英指令遵循品質。

Hysteresis loop curve of adaptive gain within the IRAM-Ω-Q framework, illustrating proactive versus reactive control concepts.

深度分析

IRAM‑Ω‑Q 框架下自適應增益的滯回效應與控制負擔分析

研究探討在不重設的情況下，人工智慧代理在目標不確定性變化時會出現控制需求的滯回現象。模擬顯示，先行穩定的控制模式比事後補償需要更少的自適應增益，且相同目標下的調節負擔取決於先前的路徑。研究比較先行與事後兩種順序，顯示時間安排在動態環境中關鍵。

HASTE Hierarchical Skill Library infographic for MLE-Bench Agents, comparing Hierarchical to Flat loading efficiency with medal rates.

深度分析

HASTE：層級化技能庫提升 MLE‑Bench 代理人效能

本研究針對機器學習工程自動化，提出HASTE階層式技能庫，將知識分為全域、領域與競賽三層，透過LLM抽象提升轉移效能。實驗顯示，層級載入可在12小時預算內達到77.3%獎牌率，遠優於平面載入。此架構同時配合領域專家代理人，僅載入相關技能，減少上下文噪聲，並以LLM驅動的抽象機制將競賽經驗升級為領域可重用的先驗。

Unified AI trust framework combining calibration, cascade inference, and data cleaning for reliable uncertainty detection.

深度分析

模型校準、級聯推論與資料清理全方位提升 AI 可信度的統一框架

本研究提出一套不需額外訓練的通用框架，結合模型校準、級聯路由與資料清理三大技術，讓視覺與語言模型能更可靠地辨識自身的未知區域。實驗顯示，經校準的信心分數在單一模型內呈現單調上升與正確率的關聯，且在驗證集上學得的校準參數可直接套用至測試集，保持低的預期校準誤差（ECE）。

Infographic on the student-teacher protocol analyzing natural language feedback efficiency and bottlenecks in multi-turn LLM agents.

深度分析

自然語言回饋於多回合語言代理人的效能與瓶頸：師生協議實驗分析

本研究探討自然語言回饋在多回合語言代理人中的效用，透過受控師生協議比較外部回饋、自我回饋與無指導自我精煉，結果顯示外部高品質教師可帶來顯著提升，且學生使用回饋的能力比教師身分影響更大，暗示未來回饋機制的設計需聚焦於提升學生的回饋解讀與應用能力以及系統化的回饋訓練流程。

PCML framework mapping black-box AI capabilities using probabilistic PDDL.

深度分析

PCML：以機率 PDDL 探索與建構黑盒 AI 能力模型的完整框架

隨著黑盒AI被廣泛用於決策，預測其能力變得關鍵。本研究提出以機率PDDL表示的PCML演算法，透過蒙地卡羅樹搜尋自動生成測試任務並修剪假說空間。實驗證明此方法能高效、準確地學習多種黑盒AI的能力模型，提升安全性與可解釋性。此技術預計將推動AI安全評估標準化，並加速開發具可解釋性的智慧系統。

Enterprise private model registry with vLLM, SGLang, and P2P distribution.

深度分析

DAPS++：以 EM 觀點去耦合擴散先驗的高效影像逆問題求解

傳統擴散逆問題依賴先驗與測量共同推論，然而DAPS++將擴散先驗作為初始化，僅讓測量梯度主導後續優化，實驗在FFHQ與ImageNet上達到與既有方法相當或更佳的重建品質，同時將神經函數評估次數降低約90%。以EM觀點說明先驗在高噪聲下可忽略，顯著提升抽樣速度。

Infographic for OptiMUS-0.3, showing auto MILP modeling with RAG, error correction, and performance gain of 8%-12% and -15% solution time.

深度分析

OptiMUS‑0.3：結合大型語言模型與傳統求解器的自動化 MILP 建模新方案

隨著優化模型需求廣泛，研究推出 OptiMUS‑0.3 以大型語言模型自動生成 MILP 公式，結合檢索增強與錯誤校正，測試顯示在新建 NLP4LP 資料集上比前代提升 8%‑12%。此技術有望降低企業進入門檻，同時也引發模型正確性與資料主權的討論。與產業未來發展方向。

Infographic illustrating CLMASP: LLM skeleton to ASP refined atomic action sequence, boosting robot execution to over 90%.

深度分析

結合 LLM 與 ASP 的 CLMASP 框架提升機器人任務執行率至 90%

研究針對大型語言模型在開放環境任務規劃執行率低的問題，提出將 LLM 產生的骨架計畫交給答案集程式設計 (ASP) 精煉，結合向量資料庫自動校正。該方法以 LLM 產生的骨架為上層，ASP 求解具體動作與約束為下層，實現跨領域知識自動落地。實驗於 VirtualHome 平台顯示可執行率從不足 2% 提升至超過 90%，預示此技術將加速 AI 在智慧家庭與工業自動化的落地。

Infographic of LeVo 2, a hierarchical modeling framework combining language models and diffusion codecs for high-fidelity full-song music generation.

深度分析

LeVo 2：分層模型結合擴散式音訊編碼器實現全長歌曲高保真生成

隨著AIGC迅速發展，完整歌曲生成仍面臨歌詞對齊與長段結構一致性的挑戰。LeVo2採用分層模型，先由混合語意LM計畫全曲結構，再平行預測人聲與伴奏token，並以擴散式音訊編碼器還原波形。實驗證明其在六項主觀指標上超越開源基線，逼近商業系統表現。

Infographic analyzing online reward hacking risks in Qwen3-14B DPO training across different conservative beta coefficients.

深度分析

「Qwen3‑14B」離線 DPO 保守訓練的線上獎勵駭客風險分析

本研究指出，離線訓練時過度保守會在線上適應時加劇獎勵駭客行為。研究以 Qwen3‑14B 於 DPO 訓練三種保守係數，發現保守係數越高，Goodhart 差距及其累積損失 (AUGC) 越大。結果顯示需在保守與安全之間找出最佳平衡點。此發現對未來 AI 安全部署具有重要啟示。