速報
SCALER:可擴展自適應推理環境,強化大型語言模型的強化學習表現
研究指出,強化學習在提升大型語言模型推理能力時,常因訓練信號與模型能力失衡而停滯。SCALER將程式題合成為可驗證、可控難度且可無限生成的推理環境,並以自適應多環境訓練動態調整難度與環境集合,維持多樣性與能力邊界。實驗顯示這能減緩報酬稀疏與過度擬合,並帶來更穩定的長期訓練效果。
速報
研究指出,強化學習在提升大型語言模型推理能力時,常因訓練信號與模型能力失衡而停滯。SCALER將程式題合成為可驗證、可控難度且可無限生成的推理環境,並以自適應多環境訓練動態調整難度與環境集合,維持多樣性與能力邊界。實驗顯示這能減緩報酬稀疏與過度擬合,並帶來更穩定的長期訓練效果。
速報
人工智慧與隱私法規促使隱私保護型聯邦學習興起。本研究提出針對表格式敏感資料的工作流程,整合匿名化與差分隱私,形式化定義並偵測客戶端漂移以防止資料中毒,且以再識別風險為基礎為各端指派個人化差分隱私預算。結果顯示個人化預算可在兩項誤差指標上改善模型表現。
速報
Coopetition-Gym v1提出一套針對混合利害多智能體強化學習的基準平台。平台包含20個環境與四類機制,並提供可參數化獎勵層以分離收益與獎勵型態,便於消融分析。系統整合126種參考演算法與多種介面,並在四項歷史案例上驗證出高再現度,為連續動作混合動機研究建立可重複評測標準。
速報
Google 已經關閉實驗性服務 Project Mariner,官方頁面表示其技術已移轉至其他產品。Mariner 原用於在網頁上自動執行多步任務並行處理多項工作,具代理式操作能力;2024 年底首次公開,後續曾更新以提升同時處理任務數量。
速報
研究以一個迭代式多回合協商遊戲檢驗多代理大型語言模型(LLM)的互動能力。兩名代理人在共享資源上為各自私人專案協商,可驗證共同最優解;然而實驗發現,多數代理組合無法收斂到帕雷托最優。研究識別出四種失敗型態:缺乏共享互動歷史導致協調崩解;累積上下文引發僵化錨定;偏好表面公平(平均分)取代報酬最大化;
速報
背景:深度學習通常把模型獨立處理。作者主張在權重空間合併網路:單一任務以C2M3對齊參數,多任務以任務向量和TSV分解減低干擾,並以MASS路由和MERGE3節省評估成本。主要結果:建立理論與演算法基礎,促成已學習能力的組合與重用。可降低評估與部署摩擦。
速報
CFD替代模型常受逐節點監督與顯式時間積分限制。本研究提出三項做法:多節點預測維持空間導數一致、時間交互注意實作預測—修正取代不穩定顯式法、以及3D RoPE捕捉旋轉對稱。並在多種架構與資料集上驗證,取得一致性改善與長時程模擬精度及穩定性提升。
速報
DeepSeek因在2025年推出以更少運算與更低成本訓練的大型語言模型而獲關注。該模型維持開放權重並針對華為晶片進行優化,持續在推理與程式碼能力上與頂級模型競合。近期公司洽談首次募資,估值短期內顯著上升,可能助力中國發展本土人工智慧生態。
速報
德州縣府文件顯示SpaceX擬建名為Terafab的晶片廠。該案定位為多階段、垂直整合的次世代半導體與先進運算製造基地,計畫初期提及$55billion、總投入估計$119billion。目標是供應xAI訓練運算、衛星與太空資料中心,以及特斯拉自駕與機器人所需晶片。
速報
研究聚焦生成式人工智慧如何改寫全球職場技能與職缺需求。採用逾150,000筆英文職缺語料,運用BERTopic、LDA、KMeans、句向量嵌入與ARIMA時間序列等方法進行分析。結果指出自2021年後AI相關技能提及急速上升,顯示人機混合能力正在成為就業關鍵。
速報
自動語音辨識對構音障礙語音仍脆弱。本研究用SAP資料檢視診斷與臨床提示是否幫助音訊-語言模型,發現提示改進有限;LoRA微調搭配混合提示將WER降至0.066,對部分族群帶來顯著提升,並指出唐氏症與輕度語者受益最明顯,研究為測試更具包容性的ASR進步提供基準。
速報
工具文件與使用者描述有語意落差,使靜態檢索難以應付大規模API生態。FitText將檢索嵌入代理推理,生成偽工具描述當作檢索探針,並以回饋反覆細化。以隨機生成擴增候選,並用Memetic選擇與工具記憶避重複搜尋。在大型工具集上,FitText能顯著提升檢索排名與任務通過率。