LLM 推理 - Agents Report | 代理人報告

深度分析

ARMOR-MAD：異質多代理辯論與自適應路由提升大型語言模型推理效能

本研究針對大型語言模型的推理缺陷，提出ARMOR-MAD，結合預辯論同意路由、早期停止評估與語意異常偵測，讓異質模型僅在必要時展開辯論。此框架將辯論視為條件運算，根據模型族多樣性與答案一致性自動決定參與者與啟動時機，降低不必要的計算開銷。實驗在四項基準測試中，準確率均超過固定回合的異質辯論，顯著提升效能與效率。

深度分析

GeoMin：利用幾何先驗提升半監督 RLVR 在 LLM 推理中的資料效率

在大規模語言模型推理中，驗證型獎勵學習受限於標註成本。GeoMin 透過在標記資料上建模正確與錯誤推理的全域方向分布，利用 von Mises‑Fisher 與高斯混合模型評估未標記樣本的幾何信心分數，從而精準挑選自我獎勵信號。實驗顯示僅使用10%標註即超越全監督基線，提升約4%效能，顯示資料效率顯著提升。

RTP-LLM

RTP-LLM：面向生產環境的高效能 LLM 推理引擎（CUDA 優化與量化實作）

報導聚焦一款來自企業團隊的開源推理引擎，背景為大型語言模型在生產場景需求快速成長。核心透過圖形運算處理器加速、分頁注意力與高效解碼等演算法優化，並結合權重整數量化、KV快取量化與預填與解碼分離的系統設計。結果在降低推理延遲與提升生產環境吞吐及部署穩定性方面有明顯助益。

深度分析

CDL中介化：以MLLM Interpreter與LLM分工結合CoT與GRPO提升平面幾何推理

平面幾何題同時考驗視覺感知與嚴謹推理，傳統做法多以端到端微調多模態大模型（MLLM）來同時處理兩端，但容易犧牲基礎語言模型的推理能力。本文改寫的研究提出一條可解耦的路徑：先訓練一個 MLLM Interpreter 將圖形轉成結構化且精簡的條件宣告語言（CDL），再交由現成的 LLM 做符號化推理。

深度分析

使用 Fluid 在 Kubernetes 上降低 LLM 冷啟動：網易的分散式快取與預取實作

網易遊戲在生產環境面對LLM推理冷啟動問題。團隊採用Kubernetes原生的Fluid方案進行模型預取、共用快取與資料感知調度，將資料抽象化並支援多執行環境與側車注入。實測顯示模型載入時間顯著下降，讓彈性推理在實務上可行，並降低成本與資源重複浪費。

大型語言模型

以透明篩選框架估算大型語言模型（LLM）推理能源與訓練碳排

本文報導一套用於大型語言模型（LLM）影響評估的「透明篩選」框架與公開觀測平台。該框架能把自然語言的應用描述解析為有界情境，並以多因子代理分別估算推理與訓練的能源與碳排量。方法強調以可追溯的觀察錨點、顯式假設與低-中-高區間呈現不確定性，而非盲目宣稱精確測量。

CGD-PD

解決 LLM 邏輯矛盾：CGD-PD 框架如何透過三值邏輯提升推理準確率

針對大型語言模型在三值邏輯推理中常出現的矛盾與過度預測「未知」問題，研究人員提出 CGD-PD 框架。該技術透過一致性檢查與證明驅動的消歧機制，在不改變模型權重的情況下，將邏輯問答準確率提升高達 16%，讓 AI 能更精準地在真、假、未知之間做出判斷。