深度分析
TRAP 攻擊:利用對抗貼片劫持 VLA 模型的 Chain‑of‑Thought 推理
研究指出,將Chain‑of‑Thought推理加入視覺語言行動模型可提升通用性,但同時成為攻擊新向量。研究者提出TRAP攻擊,以紙製對抗貼片干擾中間推理,成功誘導機器人執行錯誤動作。實驗顯示在三種模型上均能高成功率劫持,凸顯須加強CoT安全防護。
深度分析
研究指出,將Chain‑of‑Thought推理加入視覺語言行動模型可提升通用性,但同時成為攻擊新向量。研究者提出TRAP攻擊,以紙製對抗貼片干擾中間推理,成功誘導機器人執行錯誤動作。實驗顯示在三種模型上均能高成功率劫持,凸顯須加強CoT安全防護。
深度分析
Chat2Workflow 提出第一個以自然語言直接生成可執行視覺化工作流程的基準,資料集來自真實商業流程、覆蓋六大領域,並能轉換成 Dify、Coze 相容的 YAML 部署檔。研究發現現階段最先進的大型語言模型雖能掌握高階意圖,卻在節點選擇、控制流程與多回合變更下常產生不可執行或不穩定設計;
深度分析
本研究提出KCoT框架,將Chain-of-Thought於文字屬性圖上視作以k-means為核心的聚類式推理。透過語義判別提示與結構導向對齊,模型在推理過程中以反覆的分配與中心更新來調整節點表示。實驗於多個標準資料集顯示較現有方法穩定提升效果並增進可解釋性。
深度分析
隨著視覺語言模型被廣泛應用於決策系統,研究其視覺輸入對行為的影響變得關鍵。本研究以迭代囚徒困境為測試平台,測試呈現善意或自私圖像及紅綠色獎勵矩陣的視覺原初效應。結果顯示,多數模型的合作決策會受圖像與顏色提示左右,且不同緩解策略的成效亦有顯著差異。
深度分析
自回歸生成與思維鏈為大型語言模型的推理核心。研究聚焦多位正確但步驟不同的思考者提供CoT時的學習可行性與難度。論文證明:在某些密碼學假設下,被動收集CoT即使來自兩位思考者也可能使學習變困難;但若採主動查詢,對每位思考者僅需少量CoT並配足夠最終答案資料,則可在計算上達成有效學習。
深度分析
RoMathExam建構一個橫跨1895–2025年的羅馬尼亞高中數學試題資料庫,七十年核心時段為1957–2025,包含10,592道題、600多套完整試卷,並以統一的可追溯JSON架構呈現。資料經高精度數位化,附上70項課綱對應細分類標籤與預先計算的語意向量,支援去重、試題變體辨識與相似度檢索。
深度分析
研究探討大型語言模型是否繼承可辨認受害者效應(IVE),透過十組實驗在 16 種前沿模型上驗證。結果顯示指令微調模型 IVE 效應顯著放大,推理專精模型則出現逆轉;Chain‑of‑Thought 提示亦能放大或抑制此效應。此發現對 AI 人道決策與倫理部署具有重要影響。
Large Reasoning Models
為什麼大模型在長推理鏈中會突然出錯?最新研究揭露了「淺層鎖定」與「深層衰減」導致的資訊流斷裂現象。研究團隊推出 StepFlow 介入技術,無需重新訓練即可修復推理路徑,提升模型在數學與科學任務中的表現。
深度分析
研究挑戰了 SFT 僅能記憶的傳統認知,指出推理 SFT 在特定條件下具備跨領域泛化能力。透過分析最佳化動態、數據品質與模型能力,研究發現強大模型能內化推理模式,且性能呈現先降後升的趨勢,但提醒推理能力的增長可能以犧牲安全性為代價。