深度分析 - Agents Report | 代理人報告 (Page 44)

深度分析

Contrastive CFG：以對比損失提升擴散模型負向指導的穩定性與效能

研究針對擴散模型的負向分類自由指導（negative CFG）提出對比式改進（CCFG），利用對比損失在正負概念間拉扯，引導去除不想要的特徵，同時保持樣本品質。實驗顯示在多種條件下均能有效抑制不良概念。此方法亦兼具計算效率，避免大型獎勵模型的訓練成本，為線上個人化生成提供實務可行性。

深度分析

「代理式上下文壓縮」提升金融文本資訊忠實度：LLM 壓縮的決策效能分析

研究指出，大型語言模型在壓縮財報與電話會議文字時，常會遺失關鍵情境，使投資判斷翻轉。作者提出多候選壓縮與原文比對的代理式上下文壓縮流程，顯著降低決策翻轉率。實驗以 S&P 100 企業 2025 年第一至第三季的 10‑Q MD&A 以及盈餘說明會稿為樣本，顯示單一壓縮模型的翻轉率可達 20% 以上。

深度分析

Terminus-4B：小型語言模型透過執行子代理降低代幣消耗 30% 並匹配前沿 LLM 效能

隨著程式碼代理人逐漸使用子代理處理繁雜的終端輸出，研究者提出以4B參數的Terminus-4B取代大型模型。透過專屬的執行子代理與雙階段微調，模型在SWE‑Bench系列基準上減少約30%代幣使用，同時保持或超越前沿模型效能。實驗顯示，即使僅使用4B參數模型，亦能在多語言專案如C#測試中保持高解決率。此技術有望降低部署成本並提升代理人效率。

深度分析

「否定敏感度指標 (NSI)」揭示大型語言模型在醫療與金融等高風險領域的安全盲點

研究發現大型語言模型在處理否定指令時常出錯，開源模型在簡單否定下錯誤贊同禁令高達77%至100%，商業模型亦出現19%至128%的極端波動，醫療情境較金融情境更易受影響。作者提出否定敏感度指標(NSI)作為安全治理度量，並建議以領域門檻分層認證，降低高風險應用的安全風險。

LLM 加速 PostgreSQL 與 MySQL Arrow 資料批次效能讀取

深度分析

LLM 生成 Apache Arrow 讀取器：PostgreSQL 與 MySQL 資料庫加速最高 27 倍

傳統分析工作負載必須透過JDBC/ODBC走線，造成高延遲。研究提出Jailbreak，利用大型語言模型自動合成可直接讀取PostgreSQL與MySQL儲存檔的欄位緩衝讀取器，輸出ApacheArrow。實驗顯示在多種分析引擎上可提升27倍效能，證明LLM輔助的存儲層解耦能突破資料鎖定。

深度分析

透過 CPT 與方言對齊，DiaLLM 改善 LLM 在多種英語方言的生成品質

研究指出大型語言模型已能理解英語方言，卻仍只能產出標準美式英文。團隊提出DiaLLM框架，透過持續預訓練與顯式方言對齊，提升方言生成辨識度，揭示韌性與生成的斷層。實驗比較DPO、GRPO、GSPO，顯式方言適配產出被認可的方言風格，但最佳化獎勵的GRPO未獲偏好，顯示獎勵設計仍需改進。

深度分析

SynthAVE：利用多模型驗證與 LLM 競技場提升電商屬性標註品質

隨著電商商品類別與語言多樣化，屬性標註成本激增。SynthAVE以21種大模型＋三種提示組合的多模型競技場，透過多數投票驗證合成標籤。實驗顯示，與人工審核一致率達95.2%，顯著降低成本並維持品質。透過7家模型×3種提示的21組評審，達成高一致性，同時將每筆標註成本降至約0.02美元。

深度分析

DiPhon：結合 Graphon 與 Jacobi SDE 的可伸縮圖形擴散生成模型

研究以圖形極限（graphon）為基礎，提出 DiPhon 透過 Jacobi 隨機微分方程在圖形空間實現可伸縮擴散生成。實驗證明模型在小圖上訓練後，可直接產生更大圖且保持拓撲特性，理論上首階矩完全對齊，二階矩僅有閉式差異，並在穩態收斂至 Erdős–Rényi 圖形極限，為大型圖生成提供安全且有效的路徑。

深度分析

記憶體成本與開放模型崛起：2026‑2030 年 AI 推論經濟與資金安全走廊解析

2026 年記憶體價格飆升與開放權重模型崛起同時改寫 AI 基礎建設格局。研究指出，雖然 GLM‑5.2 等開源大模型降低服務成本，但記憶體溢價使既有廠商持續掌握成本優勢。結果顯示，若代幣需求年增 2 倍，業者仍能維持資金安全，否則新進者面臨高失敗風險。

深度分析

Transformer 單位擴展：在模組乘法下的局部代數層級與 GCR 機制延伸

本研究探討小型 Transformer 如何在合成模數下學習模組整數乘法，這是一種因零因子而非全域可逆的運算。作者提出「單位擴展」概念，認為模型會將輸入空間劃分為局部代數層級（𝒥‑類），在每個層級內仍保留類群結構，允許應用局部傅立葉特徵與局部逆元。

深度分析

利用黎曼幾何平均池化增強 BERT 與 GPT‑2 句子表徵分類表現

本研究探討預訓練語言模型嵌入的黎曼幾何結構，提出從編碼器雅可比取得標記拉回度量並於正定對稱矩陣流形上以Fréchet均值聚合的RMP方法。實驗在CoLA、CREAK、RTE三任務上超越歐式平均，且在去除偏見的FEVER‑Symmetric測試中保持機率水平，顯示幾何聚合本身即能提升分類訊號，並為模型可解釋性與安全性提供新視角。

深度分析

ReSpec 提升對話式影像編輯的時間性保存：OCCUR‑Bench 評測與分析

對話式影像編輯需保留暫時被遮蔽卻未改變的內容。研究推出OCCUR-Bench測試集，並提出無需訓練的ReSpec框架，透過歷史參考影像與修復指令顯化隱含保存意圖。實驗顯示在恢復真實度與時間一致性上顯著優於既有編輯模型。此技術有望提升長對話編輯的可靠性，並推動開發者在影像AI工具中加入歷史記憶機制。