深度分析 MCTS‑Judge:以蒙地卡羅樹搜尋與測試時計算強化 LLM 的程式碼正確性評估 面對大型語言模型在程式碼判斷上的推理不穩與偏誤,研究提出MCTS-Judge,一套在測試時計算(test-time computation)加入蒙地卡羅樹搜尋(MCTS)的 System‑2 評判框架。