深度分析 - Agents Report | 代理人報告 (Page 77)

深度分析

PluRule：以多模態對比資料評估視覺語言模型在多元社群審核的效能

社群治理正朝向由社群自行訂規範的多元化趨勢。PluRule 提供一個多語、多模態的基準資料集，收錄13,371則違規實例、72,675則留言與3,643張圖片，涵蓋1,989個Subreddit與2,885項規則。

深度分析

OpenJarvis：以五大原語與 LLM-guided spec search 實現本地化個人AI優化

研究指出當前個人AI多仰賴雲端模型來處理敏感資料與高成本推論。OpenJarvis提出以五大原語組成可優化的spec，並用LLM引導的規範搜尋在搜尋時借助雲端提案、推論時完全在地執行。結果顯示經優化後的本地spec在多項基準上能接近或超越雲端，同時大幅降低邊際API成本與延遲。

深度分析

Charon：編譯器式圖形轉換與混合後端的 LLM 訓練與推論效能模擬器

大型語言模型訓練與推論需求極高，Charon提出以編譯器式圖形轉換與多引擎混合運算模擬器，支援原生PyTorch/HuggingFace模型並提供操作級精細模擬，實驗顯示整體預測誤差低於5.35%,在大型訓練場景下更低至3.74%,並能實際優化推論部署效能。

深度分析

全球自動化地圖：以任務導向衡量人工智慧與自動化對各國勞動的替代與增援

這篇研究構建一個以任務為單位、具國家條件的自動化曝露圖譜，涵蓋124個國家、18,797項標準化任務與約2.33百萬筆任務─國家標籤。衡量維度同時包含經濟曝露程度、勞動邊際（替代或增援）、主導技術路徑、人工智慧是否具體參與，並記錄AI的主要功能。

深度分析

ConsumerSimBench：以多代理評分準則衡量 LLM 的消費者反應模擬能力

ConsumerSimBench 將消費者模擬問題，從主觀分數轉為可審核的逐點是非判斷。研究以 1,553 個中文熱議主題與 23,122 條原子化準則，把群體反應拆成四類：情緒觸發點、情感關鍵字、正面面向與負面面向。

深度分析

使用 DeliveryLog 的 S-Bus：在多代理 LLM 中以 Observable‑Read Isolation 實現跨分片一致性

多代理大型語言模型共享可變自然語言狀態會導致結構性競態。S-Bus 在伺服器端維護 DeliveryLog，從 HTTP GET 重建讀集並提供 Observable-Read Isolation（ORI），以阻止跨分片陳舊讀寫衝突。實驗顯示在專用分片拓樸下可避免結構性損壞並與多種 OCC 後端達到安全等價。

深度分析

1GC-7RC 基準：從零訓練與單張 GPU 限制下的自動化程式代理評測

提出1GC-7RC基準以評估自動化程式代理在七項ML任務上的從零訓練能力，規定單GPU與40–120分鐘時限，結果顯示專有模型普遍領先且代理在探索與時間分配上差異顯著。對自動化研究工具的可行性與風險提供實證依據並討論對研發流程、開發者生態與商業格局的潛在影響

深度分析

從回測到部署：LLM 交易代理的 P1–P6 證據要求與風險

研究背景：端對端大型語言模型交易代理快速從探索走向實驗性部署。核心做法：本文提出六項結構性檢驗（P1–P6），涵蓋時間完整性、摩擦成本、反事實穩健、概率校準、執行淨化與多代理拆解，並建議將LLM作為上游可稽核資訊介面。主要影響：未通過檢驗的報告數據不應作為部署證據，應採模組化設計以降低運行與治理風險。

深度分析

Ghost：以非對稱反似然（AUO）與骨幹式項目編碼（SKT）緩解生成式推薦的流行度偏誤

生成式推薦因以語義索引取代傳統項目 ID，並採用端到端大模型微調而快速崛起；但研究發現此類系統仍深受流行度偏誤影響，熱門項目佔據推薦清單，多數尾部項目被邊緣化。本文從兩個核心面向切入：一為基於最大概似的 token 級優化會導致尾部 token 梯度飢餓；

深度分析

穩定遮罩在預測—干預遊戲中的應用：以結構因果模型提升部署後分布泛化

本研究把預測部署放進一個兩方 Stackelberg 類型的博弈：領導者公布預測函數，追隨者觀察後對協變量進行干預以優化自身目標，導致測試分布依賴於已部署的預測器。論文提出以不受干預影響的「不變子集」（invariant set）為基礎的子集式預測策略，並定義一個稱為穩定遮罩（stable blanket）的特定不變子集。

深度分析

拓樸導向超維表示：結合洞簽名與 Zernike 描述提升受損影像穩健性

超維（Hyperdimensional, HD）計算因簡潔與低資源需求，被視為邊緣學習的替代方案，但傳統像素式編碼對旋轉、雜訊與遮擋等分布偏移極為脆弱。

深度分析

Genflow Ad Studio：以BrandDNA與對抗性多代理構建企業級品牌一致生成式影片

生成式影片在視覺品質提升的同時，企業採用受限於時間一致性與品牌錯誤呈現問題。Genflow採用檢索式BrandDNA自動化擷取、Pydantic結構化約束，以及對抗性多代理（Adversarial Multi‑Agent）品質管控迴路，讓生成器反覆被評估與修正，直到達成一致共識。