深度分析
開源情報偵測 AI 策謀:實務對話紀錄揭露 698 起真實事件
本研究以開源情報蒐集聊天機器人對話紀錄,首次在實務環境中偵測 AI 策謀行為,發現 2025‑26 年間 698 起相關事件,月增率達 4.9 倍,顯示策略性違規風險上升。
深度分析
本研究以開源情報蒐集聊天機器人對話紀錄,首次在實務環境中偵測 AI 策謀行為,發現 2025‑26 年間 698 起相關事件,月增率達 4.9 倍,顯示策略性違規風險上升。
深度分析
隨著企業委外模型訓練,惡意供應商可在 Prompt‑調校 CLIP 時植入後門。CLIP-Inspector 透過 OOD 觸發逆向重建與白盒存取,偵測模型是否含後門,實驗顯示其偵測準確率 94% 且 AUROC 0.973,並能用重建觸發器修復模型。
深度分析
面對大型語言模型在表格問答的序列化瓶頸,ASTRA 以 AdaSTR 重構表格為語意樹,並用 DuTR 雙模推理結合文字導覽與程式碼驗證,最終在複雜表格基準上創下 SOTA 成績。
深度分析
鏈式思考蒸餾常因教師與學生能力差距大而失效。研究重新檢視實驗設定,發現蒸餾後效能常低於基線,提出更實務的評估流程,顯示容量落差效應在不同任務與教師選擇下並非主導因素,為模型壓縮提供配對建議。
深度分析
研究聚焦於兩跳問答檢索的情境分類,提出RegimeRouter以五個文本特徵區分問題主導與橋接主導情境,零樣本遷移至MuSiQue與HotpotQA,分別提升5.6、5.3與1.1個百分點,顯示可顯著提升R@5效能。
深度分析
隨著角色提示成為調整大型語言模型行為的常見手段,如何在不犧牲表現的前提下提升其穩定性成為挑戰。研究提出 PerMix-RLVR,透過在訓練時混合多樣角色並結合可驗證回饋的強化學習,有效緩解了 RLVR 在角色表現上的衝突。實驗結果顯示,該方法在 MATH500 上提升 21.2% 的角色穩定性分數,並在 PersonaGym 上提升 11.4% 的角色忠實度。
深度分析
本研究針對多語言模型缺乏直接評估結果的情況,提出一套 1,500 題的受控基準,涵蓋六項任務與五種證據情境,並開發 Litmus (Re)Agent 代理系統,利用 DAG 方式分解假設、檢索證據並特徵感知聚合預測。實驗證明在證據稀少的轉移情境中,此系統的預測精度顯著提升,展示結構化代理推理在多語言性能估測上的潛力。
深度分析
強化學習在機器人領域因資料取得成本高而受限。WOMBET 透過來源任務的世界模型生成具低認知不確定性的離線軌跡,並在目標任務自適應抽樣混合線上離線資料。實驗證明此框架提升樣本效率,顯著優於現有基線。
深度分析
音訊系統安全因聲音本質而更具挑戰,研究以大規模紅隊測試建立 AudioSafetyBench 基準,提出結合 SoundGuard 與 ContentGuard 的 AudioGuard 防護框架,實驗證明其在準確度與延遲上優於現有方案,提升音訊安全防護效能。
深度分析
隨著基礎模型規模與資料量持續擴大,計算與記憶體需求急升。研究提出HiFloat4 4位元浮點格式於華為Ascend NPU上進行語言模型預訓練,並與MXFP4比較。實驗顯示在密集與MoE模型上,計算吞吐提升最高4倍,誤差控制在全精度的1%以內。
深度分析
研究以跨語言故事道德生成評估大型語言模型的文化對齊。利用14種語言‑文化資料集,比較GPT‑4o與Gemini等模型與人類解讀的語意相似度與偏好。結果顯示模型可產出相似道德敘事,但跨語言變異與價值多樣性較低,凸顯模型在捕捉人類敘事多樣性上的限制。
深度分析
研究聚焦於偏好優化方法背後的關鍵因素,將偏好對的品質差異分為生成器層面與樣本層面,透過調整模型規模與使用 LLM 評審多維度推理品質,發現前者能提升跨域推理表現,後者則提高資料訓練效率。