深度分析 - Agents Report | 代理人報告 (Page 7)

深度分析

GenSyn10 資料集：三款最新生成模型打造合成影像偵測新基準

生成式 AI 進展迅速，偵測 AI 影像的模型卻常因生成器架構不同而失效。GenSyn10 資料集以 60,000 張來自 FLUX.2-dev、HunyuanImage-3.0 與 Qwen-Image-2512 的合成影像，建立標準化基準。測試顯示微調後模型準確率可達 99.88%，但在未見過的生成器上仍下滑 4 至 18 個百分點，暴露跨架構泛化瓶頸。

深度分析

LLM 搭配演化演算法自動生成特徵，八個資料集分類準確率全面提升

特徵工程是機器學習的關鍵步驟，但耗費大量人力。研究團隊提出結合大型語言模型與演化演算法的自動化流程，讓 LLaMA 3.1 7B 模型根據既有特徵自動產生新特徵，並以基因演算法篩選。在八個資料集測試中，多數分類準確率獲得提升，且生成的特徵具備可解釋性。

深度分析

保護每個樣本：新型優化器框架「Harm Reduction」降低批次干擾、提升泛化能力

傳統深度學習優化器（如 SGD、AdamW）在更新參數時，會將批次內所有樣本的梯度平均後，再與歷史狀態（如動量）結合。這種做法雖然能穩定訓練，卻可能讓部分樣本的損失不降反升，形成所謂的「傷害」（harm）。

深度分析

Symbolic Geometric Agent（SGA）：以符號幾何驗證提升教學動畫空間正確性

大型語言模型（LLM）在生成教學動畫時，常因忽略幾何遮擋而產生物件重疊、標籤錯位等「空間幻覺」。為解決此問題，研究團隊提出 Symbolic Geometric Agent（SGA），一種可插拔的符號驗證模組。SGA 攔截 LLM 生成的程式碼，透過部分執行提取符號場景圖，並在偵測到空間衝突時進行目標式修正。

深度分析

AdaHome：以小語言模型實現地端智慧家庭助手，兼顧效率與隱私

智慧家庭助手常依賴大型語言模型與雲端部署，帶來延遲與隱私疑慮。AdaHome 針對在地端小語言模型設計，引入意圖感知規劃框架，依指令類型動態選擇輕量推理或直接執行，並以思路草稿策略提升決策效率。實驗顯示，直接指令準確率達 86.7%，延遲降低最多 3 倍，多輪偏好一致性達 88%，證明小模型也能實現高效個人化控制。

深度分析

PGN 導航系統實作解析：基於 OpenPangu-7B 多模態模型的離線動作預測

視覺語言導航要求代理人能根據指令在環境中移動。PGN 系統基於 OpenPangu-7B，透過兩階段訓練將視覺編碼器與語言模型對齊，並利用五幀觀測視窗與 LoRA 適配專家導航軌跡。在離線評估中，V9 版本達到 62.29% 的動作匹配率，證明了多模態大模型在動作預測上的潛力，為未來閉環導航研究奠定基礎。

深度分析

快手 SR-Agent 閉環框架實現排序後策略自動優化，訂單量提升 0.71%

電商推薦系統的排序後策略常隨環境變化靜態衰退，影響使用者體驗。SR-Agent透過UserSim與Analysis兩代理自動檢測不良案例、診斷原因，經由限定動作空間與四階段驗證安全更新策略，形成閉環並積累可重複使用的診斷知識。在快手一個月A/B測試中，訂單量提升0.71%、瀏覽深度增加0.34%、點擊類別多樣性增0.48%，同時大幅縮短迭代週期與成本。

深度分析

ProEvent 評測揭示 LLM 主動代理事件追蹤能力：GPT-5.1 多步驟正確率僅 26.7%

主動代理須預測使用者事件並適時協助，但既有評測缺乏此類任務。ProEvent 首創從即時通訊對話中主動維護行事曆的基準，以客觀正確性指標評估。測試八個模型發現，GPT-5.1 也僅在 26.7% 的情境中正確回應，且對事件取消普遍處理不佳，顯示當前 AI 代理仍有根本局限。

深度分析

長文本 AI 代理導航實證：漸進式揭露於大規模文本集的決定性優勢

長文本問答常在全量載入與外部檢索間權衡。本研究提出漸進式揭露技術，讓 AI 代理人根據需求動態讀取文件路徑與片段，並透過 LoongDoc 環境對比原始導航與不同揭露層級。結果顯示，單本書籍時強大模型能自行導航，但面對大規模文本集時，扁平化揭露能顯著維持準確率並降低成本，證實該技術能有效擴展上下文處理能力。

深度分析

電商搜尋新紀元：Pailitao-MMSearch 以生成式檢索整合多模態查詢

電商搜尋正從單純關鍵字轉向複雜的多模態互動。阿里巴巴推出 Pailitao-MMSearch 基座模型，透過 HybSID 混合語義 ID 方案將產品編碼為離散碼與連續嵌入，並利用兩階段持續預訓練與混合推理管線，在注入電商專業知識的同時保留通用推理能力。實測顯示，該模型在淘寶平台將 GMV 提升 13.61% 並增加交易量 8.21%，顯著優化了跨模態搜尋體驗。

深度分析

DaoQL 顯式世界模型：資料優先本體論如何破解 LLM 四大結構危機

大型語言模型（LLM）將世界模型隱式編碼於神經網路權重中，導致幻覺、知識凍結、可解釋性差與難以局部修改等結構性缺陷。本研究提出「資料優先本體論」，將確定性知識移入名為 DaoQL 的顯式多模態資料庫，LLM 僅作為推理與語言引擎。

深度分析

AnthroDial：基於GRPO的擬人化對話閉環對齊框架

現有 AI 對話系統常因過於禮貌且傾向於總結，導致在私密聊天中顯得生硬且不自然。研究團隊提出 AnthroDial 閉環框架，透過角色卡與場景卡定義運行時，並結合 L0 有效性閘門與十個行為維度建立可執行評估基準。此外，該框架利用 CDT-ZPD 指導的 GRPO 強化學習，針對能力缺陷進行精準對齊。實驗結果顯示，該方法能顯著提升模型在擬人化對話中的一致性與自然度，使其更符合真實人類的社交行為。