速報
DTBench:首個具能力感知的文件轉表格合成基準
研究團隊提出 DTBench,一套以逆向 Table2Doc 流程自動生成文件的合成基準,針對文件轉表格(Doc2Table)任務建立兩層能力分類,涵蓋 5 大類 13 小類。實驗顯示主流大型語言模型在推理、忠實度與衝突解決上仍有明顯差距,凸顯此領域的挑戰與研究空間。
速報
研究團隊提出 DTBench,一套以逆向 Table2Doc 流程自動生成文件的合成基準,針對文件轉表格(Doc2Table)任務建立兩層能力分類,涵蓋 5 大類 13 小類。實驗顯示主流大型語言模型在推理、忠實度與衝突解決上仍有明顯差距,凸顯此領域的挑戰與研究空間。
速報
儲備運算(Reservoir Computing)在時間序列處理上表現優異,但因必須串行處理與高維儲備的記憶需求,難以大規模應用。
速報
本研究探討深度神經網路在持續學習情境下為何會失去塑性,導致無法在不重新初始化參數的情況下學習新任務。作者發現,新任務初始化時會出現Hessian頻譜崩潰,意味著有意義的曲率方向消失,梯度下降失效。
速報
本研究以系統性文件分析與案例比較,檢視 2022 至 2025 年期間 25 篇文獻中資安組織如何調整威脅模型以因應生成式 AI。結果顯示,傳統簽名式防護正被三種 AI 整合模式取代:將大型語言模型 (LLM) 用於安全應用、建立生成式 AI 框架進行風險偵測與回應自動化、以及結合 AI/ML 進行威脅獵捕與匹配。
速報
研究背景指出現有證明工具多為助理專屬且僅支援檔案層級執行。ProofWala 以 itp-interface 為基礎,提供跨 Lean 4 與 Rocq 的程式化互動層,支援全倉庫的 tactic 追蹤與依賴抽取。實驗顯示跨語言訓練提升 Lean Mathlib 與 CategoryTheory 的證明搜尋效能。
速報
本研究針對四款 2024 年新發表的大型語言模型(Gemini 1.5 Pro、Llama 3 70B、Claude 3 Opus、GPT‑4o)進行性別、種族與年齡偏見的系統性測試。結果顯示,模型在職業描述上女性出現率比美國勞工統計局資料高出 37%,而在犯罪情境中,性別偏差達 54%、種族偏差 28%、年齡偏差 17%。
速報
GPU 核心函式的效能測試成本高,研究以大型語言模型作為選擇性 GPU 替代,預測核函式相對表現。實驗顯示 LLM 能準確預測且經強化學習後校準度提升,讓搜尋在相同 GPU 預算下評估更多候選。最終找到的核函式比傳統基線更快,證明 LLM 可成為 GPU 虛擬模型,協助核函式優化。
速報
Mixture-of-Experts(MoE)已成為前沿語言模型的主流架構,傳統的生產框架在效能與彈性上投入大量工程資源。為降低新架構與系統優化的開發成本,研究團隊提出以 AI 編碼代理人自動化開發的概念,並以此為基礎打造 PithTrain——一個針對代理人任務效率(ATE)優化的緊湊 MoE 訓練框架。
速報
研究探討在不使用提示、教師或獎勵模型的情況下,語言模型能否僅透過自我生成的純文字資料進行自我訓練。結果顯示,合成語料的效用取決於資料與模型之間的相容性,而非資料本身的固有品質。相同系列的模型間轉移效果最佳,跨系列則顯著較弱。傳統的語意相似度或平均機率指標無法預測哪類語料有助於提升模型表現。
速報
研究指出,Text2SQL 代理人在使用細粒度 API 時常會過度探索,導致查詢不準確。Sophrosyne 透過在 API 回應加入指示,引導代理人聚焦相關結構,成功將過度探索降低 4.6 倍,提升正確率約 12.4%。此方法為提升 LLM 生成 SQL 的效能提供新思路。
速報
Vision‑Language‑Action(VLA)模型能讓機器人依自然語言指令執行多樣任務,但在實際部署時仍易發生執行失敗,影響可靠度。研究提出「Hide‑and‑Seek」框架,將失敗偵測視為粗略監督學習問題,藉由跨軌跡與內部軌跡的對比目標,僅使用軌跡層級標籤即可定位失敗動作,免除逐步標註需求。
速報
逆向分析工具 Ghidra 讓惡意程式分析師在無源碼情況下完成靜態分析。結合大型語言模型(LLM)與工具化代理系統(如 GhidraMCP)後,分析流程可自動化,提升單位分析師的效率。然而,此自動化也為惡意程式的混淆提供新攻擊面。