深度分析
SVEB 基準下的 Numca 與 Hista:以數值里程碑與隱藏態提升 LLM 的狀態價值估計
強化學習已成為精調大型語言模型(LLM)以優化行為的主流手段,但在 LLM 後訓練情境中,精準的狀態價值估計仍是瓶頸。本文提出 SVEB 基準,用以量化各法對狀態價值的估算誤差,並發現傳統 PPO 類 critic 常退化為群體平均基線。
深度分析
強化學習已成為精調大型語言模型(LLM)以優化行為的主流手段,但在 LLM 後訓練情境中,精準的狀態價值估計仍是瓶頸。本文提出 SVEB 基準,用以量化各法對狀態價值的估算誤差,並發現傳統 PPO 類 critic 常退化為群體平均基線。
深度分析
CB‑SLICE提出一種以概念瓶頸模型(Concept Bottleneck Models, CBMs)為基礎的錯誤切片發現方法,將模型的語義概念直接當作錯誤來源分析的核心。
Confident Learning
本研究探討標註錯誤如何影響語言模型訓練,對比Confident Learning與Dataset Cartography兩種自動標註錯誤偵測法,並在三個俄文語料集上實驗。結果指出方法效益強烈依賴語料規模與噪音程度,且有針對性的移除優於隨機刪除。
深度分析
本書以一致的數學敘事串連生成式模型家族,從主成分分析切入,逐步導出機率潛變數、變分自編碼器、擴散與得分式方法,以及可逆流與對抗/能量式模型;作者比較可解似然技術與以距離或能量為核心的學習路徑,說明模型間的數學連結與工程取捨、並強化教學與研究基礎。
本體論
生成式人工智慧在實務應用常以短促提示啟動,卻缺乏對協作情境的明確描述,導致信任與可追溯性受限。本文提出 Contextual Collaboration AI Ontology(CCAI),以任務、角色、資源與限制為共享詞彙,結合以 SPARQL 為基礎的情境檢索,將即時的提示—回應互動轉為結構化、可查詢的協作紀錄。
深度分析
本文針對隨機i.i.d.情境式bandits與bandit多類別分類,研究在每個情境下回報向量具L1稀疏性的情形。作者提出兩套互補方法:一為基於決策估計係數(DEC)的探索優化框架,提供資訊論式的樣本複雜度上界;另一為低變異探索的具體演算法,具可實作的閉式更新並延伸至情境組合半bandits。
速報
隨機對照試驗成本高昂,研究嘗試從既有實驗預測因果效果。Query2Effect 構建超過72000條自然語言查詢,並以兩步法先生成結構化表示再用監督編碼器預測效果。研究比較出廠即用的大型語言模型與微調模型,結果顯示微調能顯著降低誤差並提升領域外泛化能力。
速報
視覺語言行動模型仍難跨任務泛化。VLA-Pro在訓練時以任務專屬LoRA適配器當作程序記憶儲存,推論時根據多模態情境檢索並融合相關記憶以產生動作。實驗於RoboTwin、RLBench與實機測試顯著提升泛化,模擬相對改善達207%,實機成功率從5.8%升至65.0%。
TEMG-TTA
近年區塊鏈交易模式快速變動,導致異常檢測面臨分布偏移問題。本文提出TEMG-TTA,結合時序三節點模體表示與測試期適應機制,共享訓練與測試間通用模式。方法透過高效模體配對降低計算複雜度並結合教師-學生正則化與可信節點選擇以減緩分布干擾。實驗顯示比先進方法平均提升54.88%。
深度分析
研究提出 Knowledge-Boundary Fingerprinting(KBF),利用模型在知識邊界對數值事實的穩定回憶作為指紋,對第三方中繼或轉售的黑盒 API 進行稽核。方法透過離線候選生成、跨設定穩定性篩選與線上統計檢定,能在部署變異、角色提示與檢索式封裝下維持穩定性。
SG‑SRL
在低資源語言生成中,目標語平行資料稀缺,但來源語單語料豐富。
速報
研究分析生成式人工智慧普及後美國聯邦民事訴訟,透過約280萬筆訴狀與文體指標偵測AI式草擬。結果顯示自代表原告比率自11.33%升至16.94%,且13.9%非格式訴狀出現AI一致性跡象,這類訴狀引用較多但更易被駁回或程序早期終結。並衍生司法可近性與法院過濾負擔的討論。