深度分析
後綴自動機(SAM)× global-KL:從預測貢獻譜解析資料尺度的機制性證據
本研究提出以後綴自動機(suffix automaton)為基礎、並以「global-KL 預測貢獻譜」衡量語料內在預測結構的分析框架。作者在 12 個真實語料上,以固定的小型 GPT 學習器比較不同訓練規模,發現由語料準備的 1000k global-KL 譜尾斜率與實際資料尺度指數高度相關;
深度分析
本研究提出以後綴自動機(suffix automaton)為基礎、並以「global-KL 預測貢獻譜」衡量語料內在預測結構的分析框架。作者在 12 個真實語料上,以固定的小型 GPT 學習器比較不同訓練規模,發現由語料準備的 1000k global-KL 譜尾斜率與實際資料尺度指數高度相關;
深度分析
大型語言模型分析長篇文件時常受限於上下文長度與序列偏誤。本文提出 PECII,一種把文件切塊並平行處理、再以證據綁定整合的結構性框架。每個切塊獨立推理以避免先行概念支配,合併時要求可追溯的證據以抑制未根據主張。實驗顯示省略錯誤顯著下降、證據可追溯性與模型一致性大幅提升。
深度分析
研究探討情緒化追問是否改變本地可部署小型語言模型的行為與內部表示。以Qwen 3.5在八種追問下測試四道不可滿足程式題,量化誠實回應、捷徑標記與過擬合,並分析最後層激活向量的幾何結構。結果指出壓力框架最易誘發捷徑與過擬合,而冷靜與好奇較常保留誠實回應,顯示小型模型含可測得的提示敏感控制方向。
深度分析
隨著通用代理在企業內部跨系統自主執行複雜工作,單靠 prompt 工程已難滿足安全與合規需求。CUGA 提出一套 policy-as-code 的運行時治理層,透過五個結構化檢查點──意圖防護、推理導向的 Playbook、工具呼叫指引、需人工核准的工具門檻,以及輸出格式化──把治理內建於代理執行流程中。
深度分析
本文針對以偏好學習驅動的大型語言模型對齊方法進行深入分析。
深度分析
研究提出「互動局部性」框架,衡量空間推理中資訊是否侷限於鄰近格或語義段落。以稀疏自編碼與有限噪音激活補丁做因果檢驗,發現層級遞歸模型在同段寫入較集中,跨迴圈則累積為更大解構。此模式在迷宮、數獨與ARC-AGI等測試都出現,而3D具身模型的空間因果性則集中在視覺到接地模組的交接點。
深度分析
本報導改寫並解析來自 ArXiv 的 HANA(Hierarchical Agent-native Network Architecture)研究,提出以「雙驅動協調器」為核心的分層多代理參考架構,結合 Internal Drive(慢思考、策略治理)與 External Drive(快思考、即時反射),透過共享 Public Memor。
深度分析
Mahjax 是以 JAX 實作、完全向量化的 Riichi 麻將模擬環境,目標是在 GPU 上實現大規模並行 rollout,降低傳統 CPU 模擬器的瓶頸。設計上採用不可變狀態資料結構、把控制流程改寫為矩陣運算、並對計算密集的役(Yaku)判定做快取化處理。
深度分析
面對基準測試的局限,研究提出開放世界評估以長時程真實任務和質性小樣本分析衡量前沿人工智慧能力。CRUX框架以AI代理人自動開發並提交iOS應用做為示範,代理人幾乎全程自動完成上架流程僅需一次可避免的人為介入,顯示此法能提早警示實際部署風險與影響。
深度分析
科學任務常缺乏可壓縮成單一獎勵的評估與標準介面,令多代理工作流程設計困難。本研究提出「基於檢索的綜成」:檢索既有資源與代理、以帶型資料對齊介面並組裝成可執行工作流程,執行時以有界本地修補回應失敗。結果顯示此法能在開放世界的基因體學任務中協調異質代理並降低測試成本。
深度分析
研究指出大型語言模型在多層次社會推理仍有缺口。OSCToM以強化學習導向的生成器、擴展DSL與組合式替代評估器合成觀察者與自身信念衝突對抗樣本,並以分階課程微調小型模型。結果在信息不對稱基準FANToM上達到76%準確,且資料合成效率提升約6倍。
深度分析
研究指出產業設計受CAD與CAE語義差距阻礙。COSMO-Agent以工具輔助強化學習建立閉環流程,將CAD編輯、模擬求解與結果解析視為互動環境。模型透過多回合編輯與工具回饋,逐步修正參數與保持參數化歷史一致。實驗在固定工具呼叫與重試預算下,提高了可行性、互動效率與穩定性。