LLM 推理優化

Diffusion Language Models

S³ 分層縮放搜尋：突破擴散語言模型（DLM）的採樣瓶頸與推理性能

研究人員提出 S³ 分層縮放搜尋技術，透過在擴散語言模型的去噪過程中動態分配推理計算量，取代傳統的末端採樣，顯著提升了模型在數學推理與邏輯任務中的表現，為擴散模型在語言生成領域的測試時縮放提供了新路徑。

Probabilistic Language Tries

從運算轉向檢索：Probabilistic Language Tries (PLTs) 如何將 LLM 推理複雜度降至 O(log N)

研究人員提出 Probabilistic Language Tries (PLTs) 框架，將生成式模型的前綴結構顯式化。透過機率分佈，PLTs 能將 Transformer 推理成本從 O(n^2) 降低至 O(log N) 級別，同時提供高效的無損壓縮與決策策略表示，為 AI 推理加速與資源優化// 提供了新路徑。