速報
因果神經機率電路提升概念瓶頸模型可干預性與準確度
概念瓶頸模型(CBM)透過在神經網路中加入概念層,使最終分類結果可解釋且支援專家在測試時修正概念值。然而傳統 CBM 只會覆寫被修正的概念,忽略概念間的因果關係,導致干預效果受限。研究者提出因果神經機率電路(CNPC),結合神經屬性預測器與由因果圖編譯的機率電路,實現精確且可計算的因果推論,保留概念間的依賴。
速報
概念瓶頸模型(CBM)透過在神經網路中加入概念層,使最終分類結果可解釋且支援專家在測試時修正概念值。然而傳統 CBM 只會覆寫被修正的概念,忽略概念間的因果關係,導致干預效果受限。研究者提出因果神經機率電路(CNPC),結合神經屬性預測器與由因果圖編譯的機率電路,實現精確且可計算的因果推論,保留概念間的依賴。
速報
目前化學大型語言模型大多依賴明確的思考鏈(Chain‑of‑Thought, CoT)來解決複雜推理問題,但將化學邏輯硬塞入文字會產生「模態不匹配」的瓶頸。研究團隊推出 LatentChem,透過連續思考向量與動態感知,將化學推理與語言生成解耦,讓模型在內部以潛在計算取代冗長文字。
速報
研究聚焦於語言模型在面對未知實體時的幻覺問題,特別是線性關係的影響。研究者以合成未知實體基準 SyntHal 測試四種指令微調模型,發現線性關係與模型產生虛構答案的機率高度相關,相關係數介於 0.58 至 0.84。結果顯示,非線性關係較不易引發幻覺,提供未來模型設計的方向。
速報
本研究針對去中心化矩陣最佳化提出 DeMuon,結合 Newton‑Schulz 正交化與梯度追蹤,能在重尾噪聲下保持迭代效率。理論證明其複雜度與最佳中心化方法相當,實驗顯示於不同圖形拓撲的 transformer 預訓練中,表現優於現有去中心化演算法。
速報
本研究針對視覺變壓器(ViT)在多物件場景中的特徵綁定問題進行資訊理論化分析,提出測量模型表徵中綁定資訊的探測方法。實驗以不同挑戰(特徵共享、遮擋、自然特徵)之資料集,評估 ViT 各層(CLS token、空間 token)的綁定表現,並比較多個預訓練模型。
速報
隨著自駕車技術持續突破,長尾情境的安全評估仍是瓶頸。研究團隊開發 OmniDreams,結合 Cosmos 擴散模型的視覺先驗,並在 21,000 小時的駕駛資料上進行中後訓練,能即時產生以動作條件的寫實感感測影像。
速報
研究針對受監督的雙編碼檢索模型是否在訓練過程中學會了與查詢無關的文件相關性先驗進行了實驗。透過在凍結的文件向量上訓練簡易分類器,評估三種最先進的檢索模型於多項資訊檢索基準測試。結果顯示,監督式神經檢索器會編碼可遷移的相關性先驗,導致「可找性」差距:先驗較低的文件即使相關也較難被檢索。
速報
Cosmos 3 為 NVIDIA 推出的全方位多模態世界模型,採用混合 Transformer 同時處理語言、影像、影片、音訊與行動序列。模型統合視覺語言、影片生成、世界模擬與行動決策功能,於多項任務創下新紀錄,成為實體 AI 的通用骨幹,且已以開源方式釋出。
速報
研究團隊公布 DeepSpeak-Agentic 資料集,收錄超過 37 小時的人類與具身 AI 代理人半結構化對話影片。資料集支援音訊、影像與文字層面的 AI 代理人鑑識,並用於分析人機互動特性,同時提供未來大型語言模型、語音與臉部生成技術的基準測試。
速報
本篇論文首次提出機器心智理論(Machine Theory of Mind)的嚴謹形式定義,結合認知心理學、神經科學與人工智慧的實證原則,作為檢視現有研究的分析框架。作者進一步構建一個通用的整體性元模型,並針對目前最先進的實驗方法進行系統性基準測試,旨在為未來突破機器理解人類心智的挑戰提供研究方向。
速報
本研究提出一套利用大型語言模型(LLM)蒸餾規則的技術,針對視覺問答(VQA)任務的推理模組進行擴充。研究者先以答案集合程式(ASP)建立初始推理理論,然後以少量 VQA 範例提示 LLM 產生新規則,並透過 ASP 求解器回饋修正錯誤。
速報
自回歸大型語言模型在實務應用上取得成功,但逐字解碼仍是低延遲部署的瓶頸。近來的效能優化研究分為兩條路徑:透過混合注意力架構降低單次模型呼叫成本,以及利用擴散式語言模型(dLLM)以平行去噪方式減少序列步驟。FLARE 提出一套系統化的轉換框架,將混合注意力 LLM 轉換為同時支援自回歸驗證解碼與擴散平行去噪的模型。