PilotBench - Agents Report | 代理人報告

大型語言模型

研究針對大型語言模型在航空安全領域的推理能力提出基準。PilotBench 以 708 筆真實飛行軌跡與 34 通道遙測，衡量模型在六至九大飛行階段的預測與安全合規。結果顯示傳統預測器精度較高，LLM 在指令遵循上表現佳，但在高負荷階段精度下降，突顯混合架構的需求。