速報
TelecomTS:為5G可觀測性時間序列打造的大規模基準
企業在監控系統時產生大量可觀測性時間序列資料。論文提出TelecomTS,來自5G電信網路,包含去匿名化共變量與絕對量級資訊。並提供異常檢測、根因分析與多模態問答等下游任務。測試顯示現有基礎模型面對突發噪聲與高變異時效力有限,保留量級資訊至關重要。
速報
企業在監控系統時產生大量可觀測性時間序列資料。論文提出TelecomTS,來自5G電信網路,包含去匿名化共變量與絕對量級資訊。並提供異常檢測、根因分析與多模態問答等下游任務。測試顯示現有基礎模型面對突發噪聲與高變異時效力有限,保留量級資訊至關重要。
速報
研究人員公開可讓未受信任使用者取得Linux系統root權限的攻擊程式碼。本次事件相關Ubuntu與Canonical網站遭受由Beam等壓力測試工具衍生的DDoS攻擊,導致多數官網與更新主機失聯。受影響服務包括下載與安全公告通路,使用者轉向鏡像站繼續取得更新。該攻擊同時干擾廠商正常通報與回應流程。調查仍在進行中。
速報
研究對分子訊息傳遞神經網路做操作子層級的因子基準,拆為訊息初始化、節點-邊融合與節點更新三類,測試84種配置與十個MoleculeNet資料集。結果顯示性能差異主要源於訊息構建,串接混合在回歸任務具優勢,代表性設定也在多數基準取得競爭成績。
速報
研究發現LoRA適配器可透過訓練資料中毒植入後門,維持原本任務表現。攻擊以特定觸發詞為錨,泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑:一是基於probe電池的行為統計量化異常,二是權重層級的標準差指標,兩者對供應鏈掃描具實務應用價值。
速報
研究發現主動代理把使用者活動序列轉為文字逐一詢問大型語言模型成本高。文中改以時序圖更新,提出Temporal-Graph-Learning(TGL)編碼器,對每事件預測觸發機率與實體路由,僅在觸發時才呼叫LLM;在14個基線平均F1提升16.7且延遲與記憶體可在裝置部署。
速報
面對雲端大型語言模型與可離線部署的小型模型的取捨,研究把混合式多代理系統當作中間解。論文將兩種代表性系統改為支援雲端與裝置協作,分析成本、耗能與效能的權衡,發現小型模型可從大型模型協助中獲利,但最佳架構高度依賴任務,更多算力未必帶來更好結果。這為邊緣與雲端協同的設計提供實證洞見。
速報
本研究對大型語言模型(LLM)發起的大規模自動滲透測試進行實證分析:在相同蜜罐環境(包含 OWASP Juice Shop 與兩個其他易受攻擊服務)上,對 4 款模型各執行 100 次、共 400 次試驗。實驗固定提示、協調器與目標,衡量模型在重複試驗下的攻擊一致性、失敗模式與首次成功時間。
速報
隨機對照試驗成本高昂,研究嘗試從既有實驗預測因果效果。Query2Effect 構建超過72000條自然語言查詢,並以兩步法先生成結構化表示再用監督編碼器預測效果。研究比較出廠即用的大型語言模型與微調模型,結果顯示微調能顯著降低誤差並提升領域外泛化能力。
速報
視覺語言行動模型仍難跨任務泛化。VLA-Pro在訓練時以任務專屬LoRA適配器當作程序記憶儲存,推論時根據多模態情境檢索並融合相關記憶以產生動作。實驗於RoboTwin、RLBench與實機測試顯著提升泛化,模擬相對改善達207%,實機成功率從5.8%升至65.0%。
速報
研究分析生成式人工智慧普及後美國聯邦民事訴訟,透過約280萬筆訴狀與文體指標偵測AI式草擬。結果顯示自代表原告比率自11.33%升至16.94%,且13.9%非格式訴狀出現AI一致性跡象,這類訴狀引用較多但更易被駁回或程序早期終結。並衍生司法可近性與法院過濾負擔的討論。
速報
研究檢驗柏拉圖表示假說,分析現代人工智慧表徵來源。採訊號、偏差、雜訊三分框架,並以線性表示假說與稀疏自編碼器抽取物件—屬性線性特徵,比較稀疏與稠密表示的跨模態對齊。結果顯示中心化與正規化能改善模型偏差,資料稀少會提升表示雜訊。有助於解釋不同架構下表示對齊現象。
速報
隨著個人化人工智慧代理採用持久化、多來源記憶,系統必須在互相衝突或不完整的證據間選擇或放棄回答。研究提出一套選擇性問答基準,包含18種題型、8類推理、480個人物設定、4個亂數種子與34,560個實例,並在來源上加入可控扭曲以建立確定性標註。