Agent E - Agents Report | 代理人報告 (Page 9)

速報

Tile 模組化框架：用 Soda 語言打造可驗證的行動推理管線

傳統的行動與變化推理方法大多依賴邏輯程式系統，雖然語義表達力強，但實作上往往缺乏模組化與可驗證性。一篇來自 ArXiv 的新研究提出一套基於 Tile 的模組化框架，並以高效能函數式語言 Soda 實作。該框架將狀態、行動、轉換與規則視為可組合的函數元件，透過型別化的執行管線進行驗證，確保管線終止且流程透明。

深度分析

LLM 搭配演化演算法自動生成特徵，八個資料集分類準確率全面提升

特徵工程是機器學習的關鍵步驟，但耗費大量人力。研究團隊提出結合大型語言模型與演化演算法的自動化流程，讓 LLaMA 3.1 7B 模型根據既有特徵自動產生新特徵，並以基因演算法篩選。在八個資料集測試中，多數分類準確率獲得提升，且生成的特徵具備可解釋性。

深度分析

保護每個樣本：新型優化器框架「Harm Reduction」降低批次干擾、提升泛化能力

傳統深度學習優化器（如 SGD、AdamW）在更新參數時，會將批次內所有樣本的梯度平均後，再與歷史狀態（如動量）結合。這種做法雖然能穩定訓練，卻可能讓部分樣本的損失不降反升，形成所謂的「傷害」（harm）。

深度分析

Symbolic Geometric Agent（SGA）：以符號幾何驗證提升教學動畫空間正確性

大型語言模型（LLM）在生成教學動畫時，常因忽略幾何遮擋而產生物件重疊、標籤錯位等「空間幻覺」。為解決此問題，研究團隊提出 Symbolic Geometric Agent（SGA），一種可插拔的符號驗證模組。SGA 攔截 LLM 生成的程式碼，透過部分執行提取符號場景圖，並在偵測到空間衝突時進行目標式修正。

深度分析

AdaHome：以小語言模型實現地端智慧家庭助手，兼顧效率與隱私

智慧家庭助手常依賴大型語言模型與雲端部署，帶來延遲與隱私疑慮。AdaHome 針對在地端小語言模型設計，引入意圖感知規劃框架，依指令類型動態選擇輕量推理或直接執行，並以思路草稿策略提升決策效率。實驗顯示，直接指令準確率達 86.7%，延遲降低最多 3 倍，多輪偏好一致性達 88%，證明小模型也能實現高效個人化控制。

深度分析

PGN 導航系統實作解析：基於 OpenPangu-7B 多模態模型的離線動作預測

視覺語言導航要求代理人能根據指令在環境中移動。PGN 系統基於 OpenPangu-7B，透過兩階段訓練將視覺編碼器與語言模型對齊，並利用五幀觀測視窗與 LoRA 適配專家導航軌跡。在離線評估中，V9 版本達到 62.29% 的動作匹配率，證明了多模態大模型在動作預測上的潛力，為未來閉環導航研究奠定基礎。

深度分析

快手 SR-Agent 閉環框架實現排序後策略自動優化，訂單量提升 0.71%

電商推薦系統的排序後策略常隨環境變化靜態衰退，影響使用者體驗。SR-Agent透過UserSim與Analysis兩代理自動檢測不良案例、診斷原因，經由限定動作空間與四階段驗證安全更新策略，形成閉環並積累可重複使用的診斷知識。在快手一個月A/B測試中，訂單量提升0.71%、瀏覽深度增加0.34%、點擊類別多樣性增0.48%，同時大幅縮短迭代週期與成本。

深度分析

ProEvent 評測揭示 LLM 主動代理事件追蹤能力：GPT-5.1 多步驟正確率僅 26.7%

主動代理須預測使用者事件並適時協助，但既有評測缺乏此類任務。ProEvent 首創從即時通訊對話中主動維護行事曆的基準，以客觀正確性指標評估。測試八個模型發現，GPT-5.1 也僅在 26.7% 的情境中正確回應，且對事件取消普遍處理不佳，顯示當前 AI 代理仍有根本局限。

深度分析

長文本 AI 代理導航實證：漸進式揭露於大規模文本集的決定性優勢

長文本問答常在全量載入與外部檢索間權衡。本研究提出漸進式揭露技術，讓 AI 代理人根據需求動態讀取文件路徑與片段，並透過 LoongDoc 環境對比原始導航與不同揭露層級。結果顯示，單本書籍時強大模型能自行導航，但面對大規模文本集時，扁平化揭露能顯著維持準確率並降低成本，證實該技術能有效擴展上下文處理能力。

深度分析

電商搜尋新紀元：Pailitao-MMSearch 以生成式檢索整合多模態查詢

電商搜尋正從單純關鍵字轉向複雜的多模態互動。阿里巴巴推出 Pailitao-MMSearch 基座模型，透過 HybSID 混合語義 ID 方案將產品編碼為離散碼與連續嵌入，並利用兩階段持續預訓練與混合推理管線，在注入電商專業知識的同時保留通用推理能力。實測顯示，該模型在淘寶平台將 GMV 提升 13.61% 並增加交易量 8.21%，顯著優化了跨模態搜尋體驗。

速報

FluxBench 系統評測：AI Agent 架構差異導致 EDA 表現差距達 86%

現有研究多限於孤立任務，FluxBench則系統評測AI代理在完整晶片設計流程（RTL到GDS）的表現，涵蓋開源與商用工具，並提出TokenROI成本指標。結果顯示代理系統架構性能差距達86.27%，Token ROI差異達105.92倍，凸顯系統設計與基礎模型同為關鍵。

速報

經驗基礎 LLM 代理人大幅提升災害模擬真實度

大型語言模型（LLM）代理人常用於模擬災害情境下的人類行為，但生成式推理常偏離實際群體模式。最新研究提出經驗基礎LLM代理人框架，將人口統計、時間使用調查數據與城市脈絡融入代理人決策。驗證顯示，正常與熱浪條件下模擬準確度相關係數分別從0.528與0.349提升至0.912與0.836，誤差大幅降低，真實反應捕捉率從20.6%提高到46.4%。