序列決策 - Agents Report

深度分析

量化推理冗餘：大型語言模型在長度無關獎勵下的過度思考分析

本報導改寫自 arXiv 研究，針對具推理能力的大型語言模型（LLM）揭示一個普遍現象：模型在解題時產生大量可削減的「尾端思考」。作者提出以「逐步截斷前綴」的實驗定義，把模型自身作為判定器：從一個正確的長序列中，逐步保留前 k 個段落並強制模型立即輸出答案，找出最小能保證正確的 k 值，進而定義步級與字級冗餘比例。

量化推理冗餘：大型語言模型在長度無關獎勵下的過度思考分析

演算法公平的代價：Price of Fairness 在短期與長期序列決策中的權衡