速報 - Agents Report | 代理人報告 (Page 23)

速報

LLM代理人策展：用大型語言模型提升表型文字對齊本體的基準評測

研究指出表型自由文字註記是跨研究整合的關鍵瓶頸。採用五款來自Anthropic與OpenAI的大型語言模型作為代理策展人，在封閉工作區內以原始出版PDF、本體與原始註記指南執行Entity–Quality註記並比對既有金標準，結果顯示所有代理人表現落在受訓人類註記者的變異範圍內且優於SemanticCharaParser。

速報

TRAJEVAL：解析代碼代理軌跡，揭露一致性崩潰為主要失敗源

研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段，對齊參考補丁評估行為。跨三種架構與七款模型，檢視16758條軌跡；代碼代理解決65-70%議題，但餘下失敗多由編輯品質造成。在編輯殘留問題中，主要主題為一致性崩潰：代理抵達正確程式後覆寫或反覆破壞有效補丁。

速報

RankTuner：以相對排名指標整合機率與熵的逐詞重權法

背景：監督微調常用逐詞重權。RankTuner提出相對排名指標，比對真實標記排名與其在預測分布下的期望排名。再以該指標倒數作為逐詞尺度來重權，使更新聚焦於真正未學到的標記，減少對先驗不確定位置的過度處罰。實驗顯示在數學推理、異分布推理與程式碼生成前期，RankTuner勝過機率或熵單一重權基線。

速報

擴散模型：三種視角解構生成動力學

本書系統梳理擴散模型的核心數學與概念，追溯其起源並說明多種表述如何從共通的時間依賴速度場推導而來。作者把生成過程拆解為：前向把資料逐步汙染成噪聲、以及學習反向將噪聲還原回資料的過程，並從變分觀、分數場觀與流模型三方面互補說明。

速報

TELLME讓LLM更透明：以隱藏表示提升可監測性與去毒成效

大型語言模型能力快速增強，但內部推理與決策仍難以監控。論文提出TELLME，一種利用模型隱藏表示（latent representation）來提升透明度與可監測性的技術，重點在於讓模型自身的內部表示更易被監測器辨識不當或敏感行為。研究指出，相較於外顯的思路鏈（chain-of-thoughts），直接分析隱藏表示能提供更真實的內視視角。

速報

Isometry Pursuit：從寬矩陣辨識等距嵌入的凸優化法

研究提出IsometryPursuit，一種凸方法用以從寬矩陣辨識正交列子矩陣。流程以新穎正規化搭配多任務基底追索；應用於假設座標函數的Jacobian，可由可解釋字典中辨認等距嵌入。實驗與理論支持其在座標選取與多樣化問題上，作為對貪婪和暴力搜尋的替代。

速報

大型中文語言模型多領域能力測試：醫學、法律、心理與教育的零次學習評估

針對大型中文語言模型缺乏跨領域能力評估，研究團隊提出一套涵蓋醫學、法律、心理與教育的多任務準確度測試。測試在醫學（含15項子任務）與教育（含8項子任務）等細分領域檢視模型廣度與深度。結果顯示模型間零次學習表現差距顯著，整體最高平均零次準確度為0.512，臨床醫學由單一模型達到0.693，而法律領域表現普遍低落，最高僅0.239。

速報

偏好形狀期望改進：超體積與 R2 在貝葉斯多目標優化的幾何分野

本文從幾何視角檢視貝葉斯多目標優化中以偏好變換驅動的期望改進準則，聚焦超體積（hypervolume）與 R2 兩類指標。作者釐清哪些偏好變換能保留精確可計算性、帕累托相容與單調性；在超體積端重述 EHVI 的多種表示與變換，並指出截斷 EHVI 可能失去變異數單調性；

速報

進化演算法實證：Baldwinian 與 Lamarckian 在圖形基準上領先 Darwinian

背景：進化演算法中的Baldwinian與Lamarckian長期存在但未被主流採用。研究以GraphBench圖形基準對最大獨立集與最大割做大量實驗，並在擴展的Deceptive Leading Block上進行理論分析。結果顯示加入局部搜尋的Baldwinian與Lamarckian普遍優於Darwinian，且在多數情況下勝過深度學習基準，接近專用啟發式解法。

速報

Token 優化驅動的 Oracle→PostgreSQL 遷移：LLM 多目標折衷研究

大型語言模型在Oracle到PostgreSQL遷移面臨高token成本、長上下文衰退與語義漂移等挑戰。論文把token優化視為受限轉換問題，提出十二種策略並在多項指標上衡量，發現自適應路由在減少tokens與保留語意間取得實務折衷，而過度schema蒸餾雖提升效率卻嚴重損及語意。

速報

大型語言模型的垂直整合偏誤：用 VIBench 測量代碼生成的生態綁定

背景：大型語言模型成為軟體開發基礎。方法：提出垂直整合偏誤（VIB），以VIBench在20種整合情境評估供應商關聯模型對直接與代理式代碼生成的生態傾向。結果：關聯模型在直接生成上最高多出18.8個百分點，代理式工作流程放大至39.2個百分點。

速報

Palla 與 Prefix Filters：用前綴過濾器抓出並修正 LLM 的領域錯誤

面對需滿足語言或格式正確性的生成任務，研究提出prefixfilters作為每領域與模型的符號化前綴過濾器，並用Palla算法學習這些模式，結果能量化LLM錯誤並在TypeScript生成上使Qwen2.5-1.5B的編譯成功率更顯著提升。