速報
COSPLAY:讓大型語言模型從可學習技能庫發現、重用技能以強化長期遊戲決策
長期互動遊戲環境考驗代理人跨時步鏈式技能與延遲回饋決策。COSPLAY讓大型語言模型從可學習技能庫檢索並重用技能,技能管線自動萃取精煉技能與契約。實驗於六款遊戲顯示,使用8B基模型相較四個先進基線在單人遊戲上平均回報提升逾25.1%。且在多人社交推理類遊戲亦維持競爭力。
速報
長期互動遊戲環境考驗代理人跨時步鏈式技能與延遲回饋決策。COSPLAY讓大型語言模型從可學習技能庫檢索並重用技能,技能管線自動萃取精煉技能與契約。實驗於六款遊戲顯示,使用8B基模型相較四個先進基線在單人遊戲上平均回報提升逾25.1%。且在多人社交推理類遊戲亦維持競爭力。
速報
Apollo 是一個多模態、時序化的醫療基礎模型,訓練資料來自美國大型醫院系統逾三十年的病歷資料,涵蓋250億筆紀錄與720萬名病患、28種醫療模態與12個主要專科。模型將超過十萬種臨床事件、影像與文字統一成向量表徵,形塑一個醫療概念圖譜,並把整段病程壓縮為虛擬病人表示。
速報
一組研究提出「LLM Brain Rot 假說」,指出持續暴露於社群平台的低質文本會造成大型語言模型(LLM)持續且難以完全回復的認知衰退。研究以真實 Twitter/X 語料做對照實驗,透過兩種操作化指標(M1:互動熱度、M2:語意品質)構造「垃圾」與反向控制語料,並在相同 token 規模與訓練流程下比較效果。
速報
Human Label Variation(HLV)指標註者之間合情合理的分歧,反映人類觀點多樣性而非錯誤。作者主張HLV應作為有價值的信號納入模型訓練與評估,特別在大型語言模型與以人類回饋為基礎的對齊流程中愈發重要。論文指出現有偏好學習資料集常把多重標註壓平為單一標籤,這會抹去不同立場與判斷。
速報
OpenAI推出GPT-5.5,宣稱模型在撰寫與除錯程式、跨工具協作與資料處理上更高效,Codex下可用較少字元完成任務,並強化安全控管,將分階段推送給付費與企業客戶。此舉發生在雙方就企業市場與程式碼工具加速競爭之際。發布時機也接近公司高層相關法律程序展開前夕。
速報
ArXiv發表Neurips2025數據集與基準草案,聚焦聯邦學習中的公平性與客戶端差異。採用Income與Employment作為基底,規定客戶端資料生成策略、是否包含敏感屬性與跨裝置/跨筏的客戶分配。評估採多種公平性指標並輸出客戶端與全域模型統計結果,便於比較與複現。
速報
研究聚焦於帶有優先關係的知識庫,在資料存在矛盾時如何容忍不一致並正確回應查詢。作者比較三種既有語義(AR、IAR、brave),並以 Pareto 與 completion 兩種最佳修復概念為基礎,指出查詢判定於資料複雜度下屬於(co)NP 完全。
速報
近似最近鄰(ANN)搜尋在受信任執行環境(TEE)與第三方 SSD 上運行時,磁碟存取行為會洩漏查詢,傳統以 ORAM 隱匿存取雖可保護隱私,卻造成高成本與延遲。Onyx 顛倒既有設計策略:將帶寬節約責任交給 ANN 層,並讓 ORAM 盡量降低存取次數。
速報
行動GUI代理能直接操作App介面自動化任務,卻缺少執行中與使用者的視覺溝通標準。AgentLens提出三種自適應視覺模態:Full UI、Partial UI與GenUI,並以Virtual Display允許背景執行同時選擇性覆蓋,視覺呈現會依任務調整。研究透過形成性研究與受控實驗驗證適配效果;實驗顯示85.7%受測者偏好AgentLens並獲最高可用性評分。
速報
Node.js 生態包含大量套件,動態語言特性和複雜相依鏈讓傳統程式分析難以偵測污點式漏洞。研究提出 LLMVD.js,一套以大語言模型為核心、多階段代理的流程:掃描程式碼、提出漏洞假設、生成概念驗證(PoC),並以輕量執行或探針驗證利用。
速報
資安研究機構 Citizen Lab 揭露兩起監控行動,指出監控供應商利用全球電信基礎設施已知弱點,透過電信業者查詢手機定位。攻擊手法包括濫用老舊的 SS7 訊令協定與在 4G/5G 使用的 Diameter 協定未完全落實的防護,甚至利用「幽靈公司」假冒合法業者取得網路中繼或查詢權限。
速報
微軟在 Office 應用導入 Agent Mode,定位為升級版 Copilot;它透過側欄實時顯示每步操作,能在試算表直接編輯公式或在簡報更新內容並保留樣式;這項改變將成為 Microsoft 365 Copilot 與 Premium 的預設體驗,並延伸至個人與家庭方案。