Python 沙盒 - Agents Report

深度分析

Intel推出DeepMath，結合Qwen3‑4BThinking與GRPO訓練，模型產生簡短Python片段於沙盒執行，減少輸出長度最高66%，同時提升答題正確率。在MATH500、AIME、HMMT、HLE四大數學基準測試均表現優異。