深度分析 工程導向基準 TPS-CalcBench:數值與推理雙軌評估 LLM 在高超音速熱防護系統的可靠性 為了評估大型語言模型在高超音速熱防護系統計算的可靠性,研究推出TPS-CalcBench基準。該基準聚焦可解析工程計算,採雙軌評估同時量測數值正確與推理過程。團隊以4,560候選題篩至420題高信度核心題庫,並進行噪音敏感度實驗。實驗揭示模型在公式選擇上有系統性弱點,診斷驅動介入展現可觀改善。