速報
語意檢查點與情境Bandit:保障多代理科學計算因果一致性的決策框架
科學計算自動化不只要產生可執行程式,還要確保決策可追溯與結果一致。本文提出結合情境Bandit、結構化代理間通訊與語意檢查點的多代理框架,以維持動作到結果的因果連貫。實驗以敏感度分析與不確定度量測為例,顯示框架能改善收斂與魯棒性,降低語意漂移對策略學習的破壞。
速報
科學計算自動化不只要產生可執行程式,還要確保決策可追溯與結果一致。本文提出結合情境Bandit、結構化代理間通訊與語意檢查點的多代理框架,以維持動作到結果的因果連貫。實驗以敏感度分析與不確定度量測為例,顯示框架能改善收斂與魯棒性,降低語意漂移對策略學習的破壞。
速報
研究調查逾1,900個標註人工智慧的加密專案,聚焦投資型自主代理並挑選10個代表案,深入分析ElizaOS與Virtuals Protocol兩套框架,並量化11個Solana金庫的鏈上表現,涵蓋925,323名代幣持有者。
速報
面向真實決策的AI工具必須能建立可解釋的模擬模型並支援人類專業互補。BEAMS倡議以開放數位與組織基礎設施協作評估建模與模擬工具。評估實作多項自動化測試含因果轉譯、模型迭代、因果推理、合規、模型行為說明與建模建議。結果顯示此類工具在討論與定性任務表現優於因果推理與定量錯誤修正。
速報
研究指出表型自由文字註記是跨研究整合的關鍵瓶頸。採用五款來自Anthropic與OpenAI的大型語言模型作為代理策展人,在封閉工作區內以原始出版PDF、本體與原始註記指南執行Entity–Quality註記並比對既有金標準,結果顯示所有代理人表現落在受訓人類註記者的變異範圍內且優於SemanticCharaParser。
速報
研究檢視代碼代理在程式修補任務的失敗與成因。TRAJEVAL將軌跡切分為搜尋、閱讀與編輯三階段,對齊參考補丁評估行為。跨三種架構與七款模型,檢視16758條軌跡;代碼代理解決65-70%議題,但餘下失敗多由編輯品質造成。在編輯殘留問題中,主要主題為一致性崩潰:代理抵達正確程式後覆寫或反覆破壞有效補丁。
速報
背景:監督微調常用逐詞重權。RankTuner提出相對排名指標,比對真實標記排名與其在預測分布下的期望排名。再以該指標倒數作為逐詞尺度來重權,使更新聚焦於真正未學到的標記,減少對先驗不確定位置的過度處罰。實驗顯示在數學推理、異分布推理與程式碼生成前期,RankTuner勝過機率或熵單一重權基線。
速報
本書系統梳理擴散模型的核心數學與概念,追溯其起源並說明多種表述如何從共通的時間依賴速度場推導而來。作者把生成過程拆解為:前向把資料逐步汙染成噪聲、以及學習反向將噪聲還原回資料的過程,並從變分觀、分數場觀與流模型三方面互補說明。
速報
大型語言模型能力快速增強,但內部推理與決策仍難以監控。論文提出TELLME,一種利用模型隱藏表示(latent representation)來提升透明度與可監測性的技術,重點在於讓模型自身的內部表示更易被監測器辨識不當或敏感行為。研究指出,相較於外顯的思路鏈(chain-of-thoughts),直接分析隱藏表示能提供更真實的內視視角。
速報
研究提出IsometryPursuit,一種凸方法用以從寬矩陣辨識正交列子矩陣。流程以新穎正規化搭配多任務基底追索;應用於假設座標函數的Jacobian,可由可解釋字典中辨認等距嵌入。實驗與理論支持其在座標選取與多樣化問題上,作為對貪婪和暴力搜尋的替代。
速報
針對大型中文語言模型缺乏跨領域能力評估,研究團隊提出一套涵蓋醫學、法律、心理與教育的多任務準確度測試。測試在醫學(含15項子任務)與教育(含8項子任務)等細分領域檢視模型廣度與深度。結果顯示模型間零次學習表現差距顯著,整體最高平均零次準確度為0.512,臨床醫學由單一模型達到0.693,而法律領域表現普遍低落,最高僅0.239。
速報
本文從幾何視角檢視貝葉斯多目標優化中以偏好變換驅動的期望改進準則,聚焦超體積(hypervolume)與 R2 兩類指標。作者釐清哪些偏好變換能保留精確可計算性、帕累托相容與單調性;在超體積端重述 EHVI 的多種表示與變換,並指出截斷 EHVI 可能失去變異數單調性;
速報
背景:進化演算法中的Baldwinian與Lamarckian長期存在但未被主流採用。研究以GraphBench圖形基準對最大獨立集與最大割做大量實驗,並在擴展的Deceptive Leading Block上進行理論分析。結果顯示加入局部搜尋的Baldwinian與Lamarckian普遍優於Darwinian,且在多數情況下勝過深度學習基準,接近專用啟發式解法。