MaxEnt‑Guided Policy Optimization - Agents Report

深度分析

VibeThinker-3B 以 3 億參數匹敵千億級大模型的推理表現

Weibo AI 團隊在 arXiv 發布 3B 參數的 VibeThinker-3B，使用 Spectrum-to‑Signal 後訓練與 Claim‑Level Reliability 評估，在 AIME 2026 取得 94.3 分，與千億參數模型持平，顯示小模型可在可驗證推理任務上壓縮參數，但在廣泛知識基礎上仍落後。