Chain-of-Thought - Agents Report

深度分析

PRIME 框架：利用邏輯格謎題檢測大型語言模型的隱性偏見

研究針對大型語言模型在推理過程中出現的性別隱性偏見，提出PRIME框架以邏輯格謎題自動生成偏見與中性變體，實驗顯示模型在符合刻板印象的謎題上正確率較高，揭示推理階段仍受社會刻板影響。此結果突顯與傳統問答偏見測試的差異，並預示在AI安全與公平部署上需重新設計評估流程。

深度分析

FinSTaR：金融時間序列推理模型與 FinTSR‑Bench 基準的創新實驗

金融時間序列推理模型FinSTaR以全新2×2能力分類結合Compute‑in‑CoT與Scenario‑Aware CoT，針對單股與多股的評估與預測任務進行專屬訓練，在FinTSR‑Bench基準上取得78.9%平均正確率，顯著超越現有LLM與TSR模型，顯示金融AI在精準度與解釋性上有突破。

速報

OneReason：結合感知與認知提升生成式推薦推理能力

OneRec 系列的生成式推薦模型已在短影片、直播、廣告與電商等服務中廣泛應用，但其推理能力受限，難以形成有效的思考流程。

深度分析

TRAP 攻擊：利用對抗貼片劫持 VLA 模型的 Chain‑of‑Thought 推理

研究指出，將Chain‑of‑Thought推理加入視覺語言行動模型可提升通用性，但同時成為攻擊新向量。研究者提出TRAP攻擊，以紙製對抗貼片干擾中間推理，成功誘導機器人執行錯誤動作。實驗顯示在三種模型上均能高成功率劫持，凸顯須加強CoT安全防護。

深度分析

從自然語言到 YAML 執行流程：Chat2Workflow 的基準、方法與工程議題

Chat2Workflow 提出第一個以自然語言直接生成可執行視覺化工作流程的基準，資料集來自真實商業流程、覆蓋六大領域，並能轉換成 Dify、Coze 相容的 YAML 部署檔。研究發現現階段最先進的大型語言模型雖能掌握高階意圖，卻在節點選擇、控制流程與多回合變更下常產生不可執行或不穩定設計；

深度分析

KCoT 框架：以 k-means 形式化 Transformer 中的 Chain-of-Thought 於文字屬性圖

本研究提出KCoT框架，將Chain-of-Thought於文字屬性圖上視作以k-means為核心的聚類式推理。透過語義判別提示與結構導向對齊，模型在推理過程中以反覆的分配與中心更新來調整節點表示。實驗於多個標準資料集顯示較現有方法穩定提升效果並增進可解釋性。

深度分析

視覺語言模型原初效應對多模態 AI 合作決策的實驗分析

隨著視覺語言模型被廣泛應用於決策系統，研究其視覺輸入對行為的影響變得關鍵。本研究以迭代囚徒困境為測試平台，測試呈現善意或自私圖像及紅綠色獎勵矩陣的視覺原初效應。結果顯示，多數模型的合作決策會受圖像與顏色提示左右，且不同緩解策略的成效亦有顯著差異。

深度分析

Chain-of-Thought（CoT）在多源推理中的可學習性與主動查詢策略

自回歸生成與思維鏈為大型語言模型的推理核心。研究聚焦多位正確但步驟不同的思考者提供CoT時的學習可行性與難度。論文證明：在某些密碼學假設下，被動收集CoT即使來自兩位思考者也可能使學習變困難；但若採主動查詢，對每位思考者僅需少量CoT並配足夠最終答案資料，則可在計算上達成有效學習。

RoMathExam：羅馬尼亞 130 年高中數學試題資料庫與 CoT Token 難度指標

深度分析

RoMathExam：基於CoT輸出Token長度的羅馬尼亞長期高中數學題庫

RoMathExam建構一個橫跨1895–2025年的羅馬尼亞高中數學試題資料庫，七十年核心時段為1957–2025，包含10,592道題、600多套完整試卷，並以統一的可追溯JSON架構呈現。資料經高精度數位化，附上70項課綱對應細分類標籤與預先計算的語意向量，支援去重、試題變體辨識與相似度檢索。

深度分析

大型語言模型中的可辨認受害者效應：對齊與推理對敘事偏差的調節作用

研究探討大型語言模型是否繼承可辨認受害者效應（IVE），透過十組實驗在 16 種前沿模型上驗證。結果顯示指令微調模型 IVE 效應顯著放大，推理專精模型則出現逆轉；Chain‑of‑Thought 提示亦能放大或抑制此效應。此發現對 AI 人道決策與倫理部署具有重要影響。

Large Reasoning Models

StepFlow：破解大型推理模型思考鏈中的資訊流斷裂與失效模式

為什麼大模型在長推理鏈中會突然出錯？最新研究揭露了「淺層鎖定」與「深層衰減」導致的資訊流斷裂現象。研究團隊推出 StepFlow 介入技術，無需重新訓練即可修復推理路徑，提升模型在數學與科學任務中的表現。

深度分析

Rethinking Generalization in Reasoning SFT: 探討監督式微調的推理泛化能力與條件

研究挑戰了 SFT 僅能記憶的傳統認知，指出推理 SFT 在特定條件下具備跨領域泛化能力。透過分析最佳化動態、數據品質與模型能力，研究發現強大模型能內化推理模式，且性能呈現先降後升的趨勢，但提醒推理能力的增長可能以犧牲安全性為代價。