速報
最小核心揭密:語言模型推理痕跡常見過度冗贅
研究針對語言模型產出的長推理痕跡是否過度冗長。作者提出「最小核心」概念,透過壓縮比、冗餘質量等指標,抽出保存答案或預測分布的最少步驟。結果顯示平均可刪除46%步驟且86%情況保留原答案,核心三步貢獻65%必要性。此外最小核心在區分正誤痕跡、降維與跨模型移轉上也有明顯改善。
速報
研究針對語言模型產出的長推理痕跡是否過度冗長。作者提出「最小核心」概念,透過壓縮比、冗餘質量等指標,抽出保存答案或預測分布的最少步驟。結果顯示平均可刪除46%步驟且86%情況保留原答案,核心三步貢獻65%必要性。此外最小核心在區分正誤痕跡、降維與跨模型移轉上也有明顯改善。
速報
面對企業系統中大型語言模型的幻覺與多跳、n元推理失誤,HEAR提出分層超圖本體與證據驅動推理循環。其圖層管理來源並保存溯源,超邊層則以n元規則與程序化流程編碼商務邏輯。評估供應鏈問題時,HEAR在根因分析上最高達到94.7%準確率,並兼顧成本與審計可追溯性。
速報
人工智慧代理處理重複週期任務面臨成本與不確定性壓力。LOOPSKILLENGINE透過一次錄製與確定性回放,將首輪LLM推理的完整工具呼叫記錄轉為參數化且無分支的執行模板。後續執行完全繞開LLM:引擎即時替換模板變數後決定性重放工具序列。結果顯示成功率提升且大幅節省token。
速報
觀測性新創 Raindrop AI 推出開源工具 Workshop,提供開發者在本機即時除錯與評估 AI 代理人的能力。工具以輕量化 .db 檔儲存每次代幣、工具呼叫與決策軌跡,並以本地 daemon 與儀表板串流顯示,通常可在 localhost:5899 檢視。
速報
研究聚焦Kolmogorov–Arnold網路(KANs)訓練理論。作者分析兩層KANs在梯度下降下的動態與泛化,並在NTK可分假設下以logistic損失為例,證明多對數寬度能達到1/T的優化率與1/n的泛化率;在(ε,δ)-差分隱私下效用界為√d/(nε),顯示私有訓練對寬度有更嚴格要求。
速報
在實務上,團隊常在尚未完成回歸或模型選擇前推出會議摘要功能。本研究提出一套面向實務的人工智慧會議摘要評估系統,結構化地建構標註、以固定候選摘要供評審比較,並採主張依據的評分方法;系統同時提供隱私界定的線上監測與提名介面,以輸出隱私安全的聚合指標。
速報
行動 GUI 代理可在使用者與手機應用間代操作,但現有評測分為單一路徑離線資料與動態線上測試,各有誤判或不可複現的問題。MobiBench提出首個模組化且具多路徑感知的離線評測框架,能在靜態環境中實現高擬真、可擴展與可重複的評估。
速報
研究指出,評估大型語言模型(LLM)在訓練截止後表現下滑常被視為基準資料汙染證據,但這項時間性訊號對基準題目構造相當敏感。作者比較直接從文件抽取的填空題(cloze)與由LLM改寫後的題目,並在先前報告衰減的基準(如LiveCodeBench)上驗證發現。
速報
研究比較2016與2024年美國總統大選推文,探討認知作戰的新威脅。透過語義分群、時間同步與Jaccard詞彙重疊量化分析,聚焦生成式人工智慧可能的操作邏輯。發現2024年以原創內容與敘事化同現為主,顯示生成式人工智慧改變了認知作戰模式化。
速報
背景:在少量昂貴基礎模型與大量衍生策略的情境下,MinT以LoRA adapter為單位管理策略生命周期。做法:維持基礎模型常駐、以匯出adapter進行rollout、更新、評估與回滾,並沿Scale Up(支援1T級密集與MoE)、Scale Down(僅移動小型adapter以降低步驟量)與Scale Out(將耐久可位址性與CPU/GPU工作集分離)三軸擴展。結果:MinT實現百萬級策略目錄管理與千級活躍adapter波次,並在共享大模型上訓練與部署選定修訂。
速報
利用樹狀廣播過程的合成語言檢驗上下文與推理。在精確k-gram假設下推導生成序列分布。發現:硬約束著色語言在有限上下文下會產生非法樣本,忠實抽樣需Ω(n)上下文;具推理的自回歸模型以Θ(logn)工作記憶可精確抽樣。實驗以變換器訓練結果驗證了理論預測。
速報
生成可控且物理合理的室內場景是建構高真實度具身人工智慧模擬環境的關鍵。本文提出HetScene,基於物件在場域中的角色差異,將物件分為主要與次要兩類,採用異構兩階段生成流程:先以結構佈局生成(SLG)在文字描述、房間二值遮罩與空間關係圖條件下產出全局結構骨幹,再由情境佈局生成(CLG)補入次要物件與處理細部關聯。