語意推理 - Agents Report

深度分析

Refine Thought (RT)：測試階段多次前向提升文本嵌入模型語意推理能力

研究針對文本嵌入模型在語意推理任務上的深度不足，提出測試時多次前向的 Refine Thought 方法，透過時間展開提升推理步數，實驗在 BRIGHT 與 PJBenchmark 上取得顯著改善，同時在 C‑MTEB 上維持穩定表現。此方式不同於一次前向或CoT，透過測試時展開提升推理深度，預期有助檢索與代理系統。

Refine Thought (RT)：測試階段多次前向提升文本嵌入模型語意推理能力

HMSC 與大型語言模型（LLM）語意推理評估：Gemini‑3、GPT‑5.4、Qwen‑3.6 的限制與差異