深度分析 - Agents Report | 代理人報告 (Page 13)

深度分析

Silhouette Loss：可微分全局結構學習提升深度表示

研究聚焦於深度模型的表示學習，提出 Soft Silhouette Loss 以批次全局結構取代僅靠配對關係，鼓勵樣本靠近同類而遠離他類。實驗證實此損失與交叉熵結合可提升 Top‑1 準確率，且計算開銷較低，顯示全局叢集原則在深度學習中的可行性。

深度分析

樹狀結構前饋層的動態稀疏化與自動剪枝：大模型計算新方案

研究聚焦於 Transformer 前饋層的高運算成本，提出樹狀結構的硬性階層路由以實現動態稀疏化。實驗證明每個 token 只啟用約 5% 單元，仍能在語言模型與問答任務上匹配密集基線，且可擴展至超過 1B 參數。訓練中出現自動剪枝效應，將動態路由部分固定為靜態稀疏，顯示此方法具備可控且高效的稀疏化潛力。

深度分析

Spatial‑Gym：驗證大型語言模型在 2D 網格空間推理與行動的效能差距

研究針對空間推理與行動之間的差距提出 Spatial‑Gym 測試平台，透過 2D 網格迷宮的逐步決策任務評估模型。實驗比較一次性、步驟式與回溯三種設定下八個模型與人類、隨機、A* 基線的表現。結果顯示即使是最佳模型 GPT‑OSS 120B 只解出 16%，遠低於人類的 98%，且步驟式互動對弱模型有提升，但對強模型有負面影響。

深度分析

EMA 作為循環上下文基線：結構編碼與資訊損失的實證分析

本研究以 EMA 為簡易循環上下文探討序列模型的能力界線。研究顯示 EMA 能編碼時間結構，且多時間尺度 Hebbian 架構在語法角色指派上達到監督 BiGRU 96% 的表現，然而其會抹除詞彙身份，使大型語言模型的困惑度僅達 260，突顯固定係數累積的資訊稀釋問題。

深度分析

LLM 文本生態系統中的漂移與選擇：遞迴出版對公共語料的影響

隨著生成式 AI 文本不斷回流至公共語料庫，研究以可變階 n-gram 代理模型建構數學框架，將漂移與選擇兩大力量分離。結果指出，僅統計式出版會使語料庫陷入淺層平衡；具規範性出版則能保留深層結構，並提供理論上可達的偏離上限。此發現對 AI 訓練語料設計與產業發展具重要啟示。

深度分析

MiniMax 推出 MMX-CLI：指令列介面原生支援七大多模態生成

MiniMax 針對 AI 代理缺乏多媒體生成能力的痛點，推出 MMX-CLI 指令列介面，將文字、影像、影片、語音、音樂、視覺與搜尋七大生成模態封裝為 shell 命令，免除 Model Context Protocol 整合。指令支援模型選擇、參數調整與非同步執行，並提供認證與配額管理。此舉將大幅降低代理開發門檻，促進多模態 AI 應用的快速落地。

深度分析

過程獎勵代理人（PRA）提升知識密集推理效能的全新方法

知識密集推理難以驗證中間步驟，研究提出過程獎勵代理人（PRA）於測試時即時給予步驟獎勵，並於每一步搜尋式解碼中篩選候選路徑。實驗顯示在MedQA上以Qwen3‑4B達80.8%正確率，並可提升0.5B至8B模型最高25.7%效能，顯示凍結推理模型與領域獎勵模組解耦的潛力。

深度分析

GNN-as-Judge：結合圖神經網路與大型語言模型的少樣本圖學習框架

隨著大型語言模型在文字屬性圖上展現語意優勢，標記稀缺仍限制其預測效能。GNN-as-Judge 透過圖神經網路的結構偏置，採用協同偽標籤與弱監督微調，產出更可靠的標籤並抑制噪聲。實驗證明在低資源情境下，其表現顯著優於既有方法，提升圖學習的可用性。

深度分析

OmniBehavior：首個以真實資料建構的跨情境長時序使用者行為模擬基準

隨著大型語言模型被視為通用使用者模擬器，現有基準仍受限於單一情境或合成資料。研究推出 OmniBehavior，整合真實長時序、跨情境與異質行為，提供完整模擬框架。評估發現 LLM 在長期因果鏈與多情境決策上表現受限，且呈現正向平均人偏差，削弱個體差異與長尾行為。

深度分析

以 Rényi‑α 與 Tsallis‑α 散度加速 GFlowNet 收斂 30% 以上

GFlowNets作為未正規化分布抽樣模型，傳統訓練以最小化對數平方差為主。研究比較四種散度度量，並設計高效梯度估計與控制變異方法。實驗證明新方法加速收斂，提升訓練效能。

深度分析

策略性單一文化：大型語言模型在協調遊戲中的行為與多樣性分析

隨著 AI 代理在多代理環境中日益增多，協調成為關鍵挑戰。本研究以協調遊戲實驗區分基礎相似度與策略性單一文化，發現大型語言模型呈現高度基礎相似度，且會因協調激勵調整行為，但在需要多樣性以獲獎勵時，表現不及人類，顯示其在多樣化協調情境仍有提升空間。

深度分析

HiL‑Bench：以 Ask‑F1 評估 AI 代理求助判斷的基準測試

研究背景：現有基準忽略智慧代理在資訊不足時的求助判斷。核心做法：HiL‑Bench 以人驗證的缺資訊阻斷項測試，並以 Ask‑F1 衡量提問精度與召回率。主要結果：大型模型在缺資訊情境下表現大幅下降，且透過 Ask‑F1 強化學習微調可提升求助品質與跨領域通過率。