深度分析
量化 RLVR 稅:評測預算、資料污染與可靠性修正
研究背景:RLVR 用程式化可驗證信號提升大型語言模型於數學與程式任務的表現。方法:文章檢視預算匹配、偏提示污染與評分穩定性,並提出分項獎勵與稅意識訓練協議,包含校準拒答與審核溯源。主要影響:在嚴格對照下,若干號稱的推理增益會收斂或消失,建議以更健全的評估與報告標準保留實用收益同時降低風險。
深度分析
研究背景:RLVR 用程式化可驗證信號提升大型語言模型於數學與程式任務的表現。方法:文章檢視預算匹配、偏提示污染與評分穩定性,並提出分項獎勵與稅意識訓練協議,包含校準拒答與審核溯源。主要影響:在嚴格對照下,若干號稱的推理增益會收斂或消失,建議以更健全的評估與報告標準保留實用收益同時降低風險。
深度分析
研究比較W8A8-FP、W8A8-INT與W4A16-INT三種量化格式在學術與實務基準的準確度與推論效能;採用自動化評測、文本相似度分析與vLLM在多款GPU的延遲量測;結果發現W8A8-FP近乎無損,W8A8-INT衰減輕微,W4A16在同步部署成本效益最佳。
深度分析
GraphMind 將大量工程師的實際操作紀錄轉為可執行的動作導向流程圖,串聯離線抽取、線上多代理遍歷與自適應強化三大機制,達成零人工撰寫的端到端自動化。系統以行動(Action)為核心單位,透過 LLM 抽取與向量檢索建構輕量圖結構,線上由多代理在圖上探索與執行,並以類蟻群啟發的強化與衰減機制讓成功路徑獲得增強、陳舊路徑自然消退。
深度分析
本文提出以Coq機械化證明為核心的結構化治理理論,對認知工作流程系統形式化治理安全性進行嚴密證明。研究結合交互樹、參數化共歸納與Kleisli範疇等技術,證明治理在多層元遞歸塔中保持不變,並以四項原語(程式、推理、記憶、呼叫)達到表達完整性。研究並以驗證直譯器連結執行環境,經大量隨機測試未見不一致。
深度分析
研究提出一套將歸因分析(SAE-based attribution)與激活操控結合的互動式工作流程,並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。
深度分析
Top-k 與 Top-p 是大型語言模型採樣的核心截斷操作,但在大詞表上實作常因全詞表排序造成巨量計算與記憶體負擔。Qrita 將 RTop-K 的樞軸選取概念擴展到 Top-k 與 Top-p,採用兩大技術:一是基於高斯分布的 σ 截斷,先行縮減候選空間;
深度分析
在高效能科學運算中,維護大量Fortran遺留有限差分程式面臨困境。本研究以LangGraph結合GraphRAG與知識圖譜,採多階段RAG檢索與靜態程式碼分析導出檢索策略,並以Pydantic約束與LLM評估驗證,將程式自動轉譯為Devito,提高轉譯可靠性與可驗證性。
深度分析
面對工具呼叫與條件化結構輸出需求,XGrammar2透過TagDispatch標籤分發、JIT即時編譯與跨文法快取,減少遮罩生成與預處理成本;實驗顯示性能顯著優於既有引擎,且可近乎零延遲整合至推理流程。有助於模型在代理任務中更可靠地輸出結構化結果與工具呼叫。
深度分析
大型語言模型常在關鍵應用產生錯誤回答,傳統不確定性量表無法提供明確風險上限。本文改寫自 arXiv 提案 LEC(Linear Expectation Constraints),將選擇性預測重新詮釋為受限決策問題,以「線性期望約束」針對選擇與錯誤兩個二元指標建立統計約束。
深度分析
DataGrail 在其《Privacy and AI Trends Report 2026》中,分析 2,400 家商用軟體供應商,指出多數標榜具備人工智慧功能的廠商,未於資料處理協議(DPA)披露第三方 AI 子處理者。
深度分析
一群來自DeepMind、Apple、OpenAI等研究者成立Trajectory,欲打造能從真實使用互動持續學習的平台。以開源模型為基礎、用產品交互資料定期後訓練,已在客服與程式碼工具展現成效,未來將改變企業部署與工程需求。創投投入與多位知名研究者參與提升關注度。
深度分析
行動通訊研發面臨繁複週期與跨供應商整合挑戰。Genesis以代理人、技能與掛鉤構成閉環框架,並以Synapse作為事實與成果的知識層,將規範或假設自動化為可OTA驗證的實作與測試回饋。實驗顯示其在多項案例能成功將新功能從規範推向實裝,對RAN開發流程具有實質加速與可觀測效果。