速報
GUARD:把政府倫理指引變成可測試題的合規診斷工具
大型語言模型應用擴大,伴隨有害回應風險與監管壓力。研究提出GUARD(Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics),將政府發布的高階倫理指引自動化轉為具體違規測試題,藉由角色扮演檢驗模型回應是否違規。
速報
大型語言模型應用擴大,伴隨有害回應風險與監管壓力。研究提出GUARD(Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics),將政府發布的高階倫理指引自動化轉為具體違規測試題,藉由角色扮演檢驗模型回應是否違規。
速報
研究針對聯邦學習實驗提出資料集與評測框架。說明資料來源、客戶端取樣、是否含敏感屬性及跨域模擬設定。列出公平性衡量(人口差異、equalized odds、demographic parity)與輸出格式,並提供個別與全域模型的統計與評估流程,利於比較演算法在不同客戶端分布下之效能與公平性表現。
速報
研究指出人類指令含糊導致機器人任務規劃失效。本文提出以語用學建模的REI-Bench基準,模擬具上下文依賴的指稱表達。並採用任務導向的情境覺察,生成明確可執行指令以供規劃器使用。實驗顯示含糊指稱可使成功率下降高達36.9%,而任務導向情境覺察可顯著提升成功率並降低物件遺漏。
速報
研究聚焦可轉移效用的多方隨機遊戲,代理可用側付促成個人理性合作。基於Harsanyi–Shapley值提出HS-S與Coco-S兩種延伸:HS-S聚合動態聯盟對立威脅力;Coco-S以逐狀態HS貝爾曼算子固定點定義。兩者在雙人遊戲一致,但超過兩人時可能分歧,並提出可估算的抽樣方法與實驗比較。
速報
知識圖譜常有缺漏,研究用文字描述學習實體向量以支援鏈結推斷與檢索。採用預訓練語言模型以鏈結預測目標學習向量表徵,並在未見實體的誘導式鏈結預測、實體分類與實體導向檢索三項任務上驗證泛化能力。結果顯示鏈結預測MRR平均提升22%,分類準確度平均增16%,檢索NDCG@10最高增8.8%。
速報
研究聚焦在shielding這項模型導向技術對自主代理安全的應用。論文提出一個保守擴展框架,將傳統嚴格安全與最大允許性延伸到機率性安全領域。作者證明無法同時維持原始強保證,並提出具體弱化保證的shield與可離線與線上構造方法,實驗顯示新shield具備實用優勢與計算可行性。
速報
GPU近年透過FP8提升運算,但大型推薦模型(LRM)因數值敏感難以直接套用。研究提出LoKA框架,包括Probe線上量測層級統計、Mods調整模型以增穩定性、及Dispatch於執行時選最快合格FP8內核。實驗顯示LoKA能在維持準確度下使LRM更實務化。
速報
在大型語言模型能力提升下,詞彙檢索能否支撐代理式深度研究?研究以BM25配合更強的LLM並提出Pi-Serini搜尋代理,整合檢索、瀏覽與閱讀三項工具,實驗於BrowseComp-Plus顯示:精心調校的BM25加深度檢索可達高答案準確率與證據回溯率。
速報
以 Sentinel-2 衛星影像與 IARPA SMART Heavy Construction 標註為基礎,SMART-HC-VQA 將工地標籤與時序觀測轉為自然語言問答;採用影像對組合擴增生成大量比較樣本,並以多影像 MLLM 訓練框架驗證語言驅動的遙測變化與過程推理能力。
速報
研究背景:先前論文將神經語言模型視為支持使用導向、漸進語言理論的證據。核心做法:本文指出語言模型亦能實作基於形式結構的理論,即生成語法傳統中的形式化表述,並示範如何用模型檢驗這類假說。主要影響:這擴展了可用語言模型測試的理論範圍,有助於尋找使用導向與生成論的調和路徑。
速報
此研究指出,大型多模態模型在解空間視覺謎題時會產生「心象」。研究團隊微調Qwen3.5VLM,讓模型從初始狀態預測解題動作序列,並觀察每步激活是否反映中間視覺狀態。結果顯示,將少量視覺token整合進思考鏈可提高解題成功率,平均從83%提升到89%。
速報
研究指出代理式記憶讓大型語言模型跨窗保留資訊卻會帶入錯誤關聯。團隊以因果結構定義並基準化幾種虛假關聯,評估記憶對乾淨與受污染輸入的影響。提出CAMEL在寫入與檢索時做校正,能減少對三類虛假模式的依賴並保留乾淨輸入表現。並在針對校正的適應性攻擊下仍展現穩健性。