速報
LoRA 適配器後門:詞元層級泛化與可執行的供應鏈偵測
研究發現LoRA適配器可透過訓練資料中毒植入後門,維持原本任務表現。攻擊以特定觸發詞為錨,泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑:一是基於probe電池的行為統計量化異常,二是權重層級的標準差指標,兩者對供應鏈掃描具實務應用價值。
速報
研究發現LoRA適配器可透過訓練資料中毒植入後門,維持原本任務表現。攻擊以特定觸發詞為錨,泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑:一是基於probe電池的行為統計量化異常,二是權重層級的標準差指標,兩者對供應鏈掃描具實務應用價值。
速報
研究發現主動代理把使用者活動序列轉為文字逐一詢問大型語言模型成本高。文中改以時序圖更新,提出Temporal-Graph-Learning(TGL)編碼器,對每事件預測觸發機率與實體路由,僅在觸發時才呼叫LLM;在14個基線平均F1提升16.7且延遲與記憶體可在裝置部署。
速報
面對雲端大型語言模型與可離線部署的小型模型的取捨,研究把混合式多代理系統當作中間解。論文將兩種代表性系統改為支援雲端與裝置協作,分析成本、耗能與效能的權衡,發現小型模型可從大型模型協助中獲利,但最佳架構高度依賴任務,更多算力未必帶來更好結果。這為邊緣與雲端協同的設計提供實證洞見。
速報
本研究對大型語言模型(LLM)發起的大規模自動滲透測試進行實證分析:在相同蜜罐環境(包含 OWASP Juice Shop 與兩個其他易受攻擊服務)上,對 4 款模型各執行 100 次、共 400 次試驗。實驗固定提示、協調器與目標,衡量模型在重複試驗下的攻擊一致性、失敗模式與首次成功時間。
深度分析
本研究指出大型音訊語言模型的越獄風險從文字擴展到語音感知流程,涉及語義、聲學、訊號與嵌入層攻擊。作者提出統一分類並在十個開源模型受控評測,發現NarrativeFraming為低延遲語義威脅,AcousticBest-of-N揭示音訊空間最壞情況脆弱性,並強調防禦需在攻擊成功率、誤拒率與延遲間權衡。
深度分析
研究指出大型語言模型規劃時常因單一非法動作導致整條路徑失效。RePoT引入可回復執行:先以PoT產生程式並驗證可行前綴,再以單次LLM呼叫修補後段,顯著提高多模型規劃成功率與回復能力。在PuzzleZoo等基準上,RePoT在強化模型配置下展現雙位數點數提升,並證明檢查點資訊是關鍵復原信號。
深度分析
自動駕駛在不同城市間轉移時,常被道路拓樸、建築風格與交通型態差異拖垮。此研究提出CityTransfer-Bench作為地理上分離的跨城評測基準,並以CityGen為核心技術:CityGen採用擴散模型(DiT)在HD-map結構條件下,配合目標城市的視覺提示,生成語義一致的多視角城市場景,實現零標註的城市風格適配。
深度分析
研究探討下一代大語言模型代理人在重複競合環境下是否仍具合作傾向。以迭代囚徒困境、策略生成與Moran演化模擬,測試三種提示風格與跨供應商模型。結果顯示多數模型與提示仍傾向合作,但供應商差異明顯;Self-Refine在部分情境會縮小攻守差距並提高攻擊均衡機率。
深度分析
Pinterest 面對數億用戶的視覺推薦場景,工程團隊選擇不再逐張呼叫大型前沿模型,而是把 Qwen3‑VL 的視覺編碼層抽換為自有多模態向量嵌入,並將圖像與 Pin 的 metadata 做離線預計算與定期重訓。此策略一方面顯著降低雲端推理成本與延遲,另一方面提升推薦準確度與個人化效果。
深度分析
強化學習已成為精調大型語言模型(LLM)以優化行為的主流手段,但在 LLM 後訓練情境中,精準的狀態價值估計仍是瓶頸。本文提出 SVEB 基準,用以量化各法對狀態價值的估算誤差,並發現傳統 PPO 類 critic 常退化為群體平均基線。
深度分析
CB‑SLICE提出一種以概念瓶頸模型(Concept Bottleneck Models, CBMs)為基礎的錯誤切片發現方法,將模型的語義概念直接當作錯誤來源分析的核心。
Confident Learning
本研究探討標註錯誤如何影響語言模型訓練,對比Confident Learning與Dataset Cartography兩種自動標註錯誤偵測法,並在三個俄文語料集上實驗。結果指出方法效益強烈依賴語料規模與噪音程度,且有針對性的移除優於隨機刪除。