大型語言模型 PilotBench:結合安全約束的通用航空代理人基準測試與評估指標 研究針對大型語言模型在航空安全領域的推理能力提出基準。PilotBench 以 708 筆真實飛行軌跡與 34 通道遙測,衡量模型在六至九大飛行階段的預測與安全合規。結果顯示傳統預測器精度較高,LLM 在指令遵循上表現佳,但在高負荷階段精度下降,突顯混合架構的需求。