Agent E - Agents Report | 代理人報告 (Page 71)

速報

Auto‑Robotist：LLM 自我進化的機器人形態技能庫

大語言模型在機器人形態搜尋常無可重用記憶。Auto‑Robotist將搜尋軌跡蒐成自然語言技能庫，記錄結構原型、正負規則與評估案例；搜尋時檢索技能以引導模型編輯並保留遺傳演算法探索路徑。實驗在多項EvoGym任務顯示5×5冷啟動搜尋改善，且技能可遷移至10×10，參照式轉移優於純GA。

速報

Alper：以標籤傳播重構髒亂實體解析

實體解析是從雜亂資料辨識相同實體的核心任務。Alper把比對和聚類合併為一個不斷演進的全域實體圖，透過標籤傳播同時修正結構與標記。它會將便宜但弱的圖傳播訊號與昂貴但強的LLM成對查詢交互整合，並在有限查詢預算下用貪婪演算法選擇訊號。實驗在多個基準資料集上顯示其整體表現優於階段式流水線。

深度分析

以自我錨定語意綠域與多通道計分實現的 SAMark 水印框架

面對生成式人工智慧輸出經常被編輯或改寫，如何在不犧牲文本品質下維持可偵測水印成為關鍵。SAMark 提出以句子語意為核心的「自我錨定」語意水印，將綠域（watermark green region）從步驟依賴改為單位語意依賴，搭配多通道超曲線計分放大穩健信號，並以多元性過濾維持詞彙新穎與流暢度。

深度分析

在語言模型中以 Compactor 模擬工作記憶：實驗方法與教育應用啟示

本研究系統性比較大型語言模型（LLM）與人類在多項記憶任務上的表現，建立包含十個任務的基準測試，並收集人類參考資料。作者發現預設模型在多數任務達到近乎滿分，顯著超越人類記憶表現。

深度分析

可驗證參照穩定性：密碼學見證與外部行為指紋在託管 AI 的應用

隨著託管人工智慧系統持續更新，傳統以固定識別碼綁定的資安評估經常失效。本文提出參照穩定性與參照安全的新範式，主張把模型身份當作可驗證的實證屬性，並評估密碼學簽章與黑盒行為指紋兩種可行機制，期望恢復可重現性、長期稽核與跨供應商可比性。此舉對審計、研究與監管均具關鍵意義。

深度分析

AutoSG：以 RAG 與 LLM 驅動的定製求解器，結合結構安全精修與無實例 Elo 評估

昂貴優化問題普遍需客製化求解器且單次評估耗時耗費甚高。AutoSG以檢索增強生成(RAG)自學術文獻嚴格取證並採雙階段生成流程以避免虛構錯誤，一步自我精修操作在保留局部結構下導入任務專屬改良。系統以Elo式LLM裁判建立無實例排序，快速選出最終求解器。實驗顯示在多種昂貴優化場景上超越既有SOTA框架。

深度分析

Gemma 4 31B 在 TPU 上以 LoRA 微調與 vLLM 部署：效能、成本與工程要點

研究以 Gemma 4 31B 在 TPU 上完成 LoRA 微調與 vLLM 推理為背景，詳述從 PyTorch→JAX 的改寫、Orbax 到 safetensors 的合併流程，以及在 v6e-8 上部署所需的 Docker 設定。結果顯示 TPU 訓練更快、成本更低，並在長上下文推理延遲與吞吐上展現顯著優勢，惟評估品質部分 GPU 仍有領先。

Transformer

在Transformer MLP中放大激活稀疏：平坦性理論、導數稀疏與JSReLU實作

這篇研究從訓練動力學角度出發，將Transformer中MLP模組自發出現的激活稀疏性（activation sparsity）與損失平坦性(flat minima)建立數學連結。

深度分析

使用向量場融合的 Mosaic 與 CoME-Bench：流基 T2I 的多概念抹除與評估

流基T2I模型能在單張影像中同時生成多概念，既有刪除方法難以處理此種組合場景；本文提出CoME-Bench與Mosaic，透過向量場差異的空間局部性，動態構建概念遮罩並選擇性融合基底與已刪除向量場，無需額外優化即可在同一生成流程中移除多個目標概念；實驗顯示在保持非目標內容下，Mosaic能顯著抑制目標概念。

深度分析

Lean 4 證明狀態快照：以 LSP 快照消除闡述開銷、加速並行 tactic 搜尋

自動定理證明在 Lean 4 的並行策略中受制於每分支的重複闡述成本。本研究提出在 LSP 層實作的「證明狀態快照」，擷取已闡述狀態並在分支間複用，以輕量分叉平行執行候選 tactic。實驗在 miniF2F-v2 上觀察到平均約十四倍的 wall-time 加速，顯著降低每分支的重複開銷。

速報

Zero-Knowledge MRTA 與 SwarmCF：無通訊下的去中心化低秩協同過濾

研究提出 Zero-Knowledge MRTA，描述一種實務常見但理論上少被討論的情境：機器人團隊既沒有任務模型，也無任何通訊，只能收到帶噪的公共結果廣播。論文設計 SwarmCF，一種在廣播上執行的線上低秩協同過濾，讓每台機器人依據隱藏的低秩結構推估自己對未嘗試任務的能力。

深度分析

生成式人工智慧（GenAI）與北京城市不平等：核心區曝露、去技能化與高技術薪資陷阱

本研究以2018–2024年間北京4,995,615則職缺為樣本，建立由五款大型語言模型整合的生成式人工智慧曝露指數。採差異中之差檢驗ChatGPT釋出後影響，發現AI曝露集中於核心區且出現高技術人才增加但薪資停滯。並指向去技能化與勞動市場擁擠為關鍵機制。