速報 - Agents Report | 代理人報告 (Page 40)

速報

Mixture-of-Masters（MoM）：以 GPT 專家重現棋手風格的象棋混合專家模型

現代象棋語言模型常訓練於大量棋局，但容易風格均化。Mixture-of-Masters（MoM）引入多個小型GPT專家分別模仿不同大師風格，並由可學習閘門在每步選擇最適人格，動態切換下法。評測顯示，MoM比單一密集網路與一般GPT基線更能維持多樣性並提升對弈表現。

速報

VIDEE：用智能代理把進階文字分析帶給入門資料分析師

文字分析長期需要NLP專業，VIDEE以智能代理簡化流程。系統分三階段：分解採人機回饋的蒙地卡羅樹搜尋、執行產出可執行分析管線、評估結合大型語言模型與視覺化。實驗與使用者研究顯示系統對非專家具可用性並揭示設計重點。研究也分析代理常見錯誤並提出改進方向。

速報

Hidden Utility Bandit（HUB）與 Active Teacher Selection：為多教師回饋設計的獎勵學習框架

本研究指出，主流獎勵學習常假設人類回饋來自單一教師，忽略了來自大規模、異質群體的差異性。作者提出Hidden Utility Bandit（HUB）框架，將教師在理性、專長與成本上的差異數學化建模，並據此發展Active Teacher Selection（ATS）演算法，透過主動學習策略決定何時與向誰詢問回饋。

速報

Mage 評估揭示：編譯成功不等於功能正確——LLM 在 Unity 場景合成的四軸驗證

一項針對大語言模型產生可執行遊戲場景的實驗指出，僅以編譯通過率作為評估主指標會誤導。研究提出 Mage 四軸評估：編譯成功、執行成功、結構相符與機制遵循，並在 Unity 場景合成上進行系統化測試，包含 858 次生成、四款開放權重模型與 26 種手工設計的目標模式，另比較兩種中介表示層級。

速報

MathlibPR：以 LLM 評估 Lean/Mathlib Pull Request 的基準初探

背景：Lean與Mathlib為LLM輔助形式化推理的主流。方法：提出MathlibPR基準，從Mathlib4真實PR歷史擷取資料並設計分階段評估，測試多款大型語言模型與代理人。結果：模型難以區分可合併PR與僅通過建置但未合併的PR，MathlibPR提供審查輔助的監督信號。

速報

PLOT：以最佳傳輸定位神經網路中的因果變數

因果抽象嘗試把高階因果模型與神經網路的低階運算對齊，但事前不知道哪些神經位點能作為介入句柄，逐一搜尋代價高。本文提出PLOT（Progressive Localization via Optimal Transport），以最佳傳輸配對抽象變數與候選神經位點，產生全域軟性對應並校準為可用的介入句柄。

速報

TAPER：逐步入場控管緩解 LLM 分支外部性

最新研究觀察到，讓大型語言模型在同一請求中並行展開多條生成分支能提升潛在吞吐，但既有服務策略要麼貿然放行造成共享解碼步驟延遲膨脹，要麼以固定上限過度保守放棄效能。論文提出 TAPER，一種按步（per-step）的入場控制器，將額外分支視為機會性工作，只有在預測的分支外部性可由當前批次的 slack 預算吸收時才放行。

速報

符號回歸×大型語言模型：開放假設學習推動自主掃描探針顯微新路

自動化實驗在顯微與材料探索重要，但多數流程仍限於固定假設。本研究以符號回歸結合大型語言模型作物理評估，讓系統從稀疏量測生成並篩選候選物理關係。實驗於壓電回應力顯微下示範，從少量種子量測演化出可解釋的電壓-時間生長律。結果指向與動力學域壁運動一致的關係，展示由實驗驅動的開放式假設發現路徑。

速報

HTML AI Battle 大比拚：Claude 領先 GPT、Gemini、Grok

觀察比較2025年12月至2026年2月間17場公開實驗中68個單檔HTML生成。以GPT、Gemini、Grok與Claude四種模型在固定公開介面、無客製指令下產出，採真人評分與Gemini裁判層評估提示遵循、功能正確與介面品質。主要發現：Claude整體表現最穩定且居首。

速報

Agent-BOM：為代理系統打造的統一稽核語意圖

面對大型語言模型驅動的代理系統，語意驅動的動態執行產生低層事件與高層意圖間的嚴重落差，導致事後安全稽核困難。論文提出 Agent-BOM，將代理系統建模為分層屬性有向圖，將靜態能力基底（如模型、工具、長期記憶）和動態語意狀態（如目標、推理軌跡、行動）分離，並以語意邊與安全屬性連結，使零碎的執行痕跡能轉為可查詢的稽核路徑。

速報

pbsq-sk：TypeScript 實作的 PayBySquare QR 生成與驗證工具

來自GitHub的pbsq-sk為Node.js與TypeScript實作的PayBySquare付款QR工具組，提供生成、解碼與驗證功能，並標榜符合斯洛伐克銀行標準，具備安全交易與多幣別支援，可作為商家或開發者整合支付的基礎套件。易於客製化與整合

速報

automation-workflows：用 Rust、Bash 與 Node.js/Vercel 自動化 GitHub 管理

automation-workflows 是一個聚焦於 GitHub 倉庫管理與 UI 影像處理的開源工具組，結合 Rust、Bash 與 Node.js，並支援部署到 Vercel。專案提供自動建立倉庫、生成 UI 畫廊，以及透過 GitHub Actions 執行工作流的能力，設計取向為提高開發與管理流程的自動化與效能。