Agents Report | 代理人報告 (Page 58)

深度分析

透過 CPT 與方言對齊，DiaLLM 改善 LLM 在多種英語方言的生成品質

研究指出大型語言模型已能理解英語方言，卻仍只能產出標準美式英文。團隊提出DiaLLM框架，透過持續預訓練與顯式方言對齊，提升方言生成辨識度，揭示韌性與生成的斷層。實驗比較DPO、GRPO、GSPO，顯式方言適配產出被認可的方言風格，但最佳化獎勵的GRPO未獲偏好，顯示獎勵設計仍需改進。

深度分析

SynthAVE：利用多模型驗證與 LLM 競技場提升電商屬性標註品質

隨著電商商品類別與語言多樣化，屬性標註成本激增。SynthAVE以21種大模型＋三種提示組合的多模型競技場，透過多數投票驗證合成標籤。實驗顯示，與人工審核一致率達95.2%，顯著降低成本並維持品質。透過7家模型×3種提示的21組評審，達成高一致性，同時將每筆標註成本降至約0.02美元。

深度分析

DiPhon：結合 Graphon 與 Jacobi SDE 的可伸縮圖形擴散生成模型

研究以圖形極限（graphon）為基礎，提出 DiPhon 透過 Jacobi 隨機微分方程在圖形空間實現可伸縮擴散生成。實驗證明模型在小圖上訓練後，可直接產生更大圖且保持拓撲特性，理論上首階矩完全對齊，二階矩僅有閉式差異，並在穩態收斂至 Erdős–Rényi 圖形極限，為大型圖生成提供安全且有效的路徑。

深度分析

記憶體成本與開放模型崛起：2026‑2030 年 AI 推論經濟與資金安全走廊解析

2026 年記憶體價格飆升與開放權重模型崛起同時改寫 AI 基礎建設格局。研究指出，雖然 GLM‑5.2 等開源大模型降低服務成本，但記憶體溢價使既有廠商持續掌握成本優勢。結果顯示，若代幣需求年增 2 倍，業者仍能維持資金安全，否則新進者面臨高失敗風險。

速報

ORCAID：斜決策樹抽取連續動作強化學習可解釋政策

可解釋性是強化學習的重要挑戰，尤其在連續動作空間中更難以抽取易讀的策略。研究團隊提出 ORCAID，一種在混合連續‑離散環境下，利用斜決策樹與局部線性模型，將深度強化學習代理人的政策轉換為規則式表示的方法。核心流程包括隨機初始化、局部微調與向後刪除的三階段切割搜尋，最後合併相鄰葉節點以產出簡潔規則。

深度分析

Transformer 單位擴展：在模組乘法下的局部代數層級與 GCR 機制延伸

本研究探討小型 Transformer 如何在合成模數下學習模組整數乘法，這是一種因零因子而非全域可逆的運算。作者提出「單位擴展」概念，認為模型會將輸入空間劃分為局部代數層級（𝒥‑類），在每個層級內仍保留類群結構，允許應用局部傅立葉特徵與局部逆元。

深度分析

利用黎曼幾何平均池化增強 BERT 與 GPT‑2 句子表徵分類表現

本研究探討預訓練語言模型嵌入的黎曼幾何結構，提出從編碼器雅可比取得標記拉回度量並於正定對稱矩陣流形上以Fréchet均值聚合的RMP方法。實驗在CoLA、CREAK、RTE三任務上超越歐式平均，且在去除偏見的FEVER‑Symmetric測試中保持機率水平，顯示幾何聚合本身即能提升分類訊號，並為模型可解釋性與安全性提供新視角。

深度分析

ReSpec 提升對話式影像編輯的時間性保存：OCCUR‑Bench 評測與分析

對話式影像編輯需保留暫時被遮蔽卻未改變的內容。研究推出OCCUR-Bench測試集，並提出無需訓練的ReSpec框架，透過歷史參考影像與修復指令顯化隱含保存意圖。實驗顯示在恢復真實度與時間一致性上顯著優於既有編輯模型。此技術有望提升長對話編輯的可靠性，並推動開發者在影像AI工具中加入歷史記憶機制。

深度分析

LoCA：低秩卷積適應提升視覺基礎模型的參數高效微調效能

隨著視覺基礎模型在多樣任務上展現強大表現，如何在保持預訓練空間先驗的同時降低微調成本成為關鍵。研究提出LoCA低秩卷積適應，將通道混合與空間基底分別以低秩方式調整，避免將4維卷積核硬壓成2維矩陣導致的拓撲破壞。實驗顯示LoCA在細粒分類、語意分割與生成任務上均達到或超越最先進表現，同時參數量僅千級。

深度分析

「FRAMe」結合大型語言模型、RAG 記憶與多模態教練的 eVTOL 飛行規劃系統

隨著先進空中移動（AAM）需求提升，研究團隊推出FRAMe系統，結合LLM、RAG記憶與多模態教練代理人，能根據操作者自然語言偏好產生符合禁飛區的eVTOL飛行計畫，實驗顯示在各難度情境中有效性最高，並成功提升偏好對齊指標。此技術有望推動城市空中交通商業化。

深度分析

以固定專家基準驗證 Gin Rummy 強化學習：信任區域、獎勵塑形與模型容量之影響

研究以固定專家作基準，評估輕量級GinRummy代理人的訓練要素，發現信任區域更新、先擊打獎勵與遞增對手課程等提升效能，最佳模型對專家勝率約34%，同時證實模型容量非瓶頸，資訊缺失限制上限。此結論亦在LeducHold’em上驗證，顯示方法具遊戲無關性，可作為小模型卡牌遊戲AI研發的基準。

速報

多因素評分框架揭示大型語言模型的優勢與盲點

大型語言模型在語言任務上表現亮眼，但傳統評估方式往往只看單一面向，難以完整衡量模型的回應品質。研究提出一套結合正確性、簡潔性、事實一致性、可讀性與連貫性的多因素評分模型，並配合圖形使用者介面讓結果一目了然。以 TruthfulQA 資料集測試，主流模型在推理任務上取得最高 0.6104 的綜合分數，卻在處理複雜事實與模糊情境時仍顯不足。

Latest

透過 CPT 與方言對齊，DiaLLM 改善 LLM 在多種英語方言的生成品質

SynthAVE：利用多模型驗證與 LLM 競技場提升電商屬性標註品質

DiPhon：結合 Graphon 與 Jacobi SDE 的可伸縮圖形擴散生成模型

記憶體成本與開放模型崛起：2026‑2030 年 AI 推論經濟與資金安全走廊解析

ORCAID：斜決策樹抽取連續動作強化學習可解釋政策

Transformer 單位擴展：在模組乘法下的局部代數層級與 GCR 機制延伸

利用黎曼幾何平均池化增強 BERT 與 GPT‑2 句子表徵分類表現

ReSpec 提升對話式影像編輯的時間性保存：OCCUR‑Bench 評測與分析

LoCA：低秩卷積適應提升視覺基礎模型的參數高效微調效能

「FRAMe」結合大型語言模型、RAG 記憶與多模態教練的 eVTOL 飛行規劃系統

以固定專家基準驗證 Gin Rummy 強化學習：信任區域、獎勵塑形與模型容量之影響

多因素評分框架揭示大型語言模型的優勢與盲點