大型語言模型
PilotBench:結合安全約束的通用航空代理人基準測試與評估指標
研究針對大型語言模型在航空安全領域的推理能力提出基準。PilotBench 以 708 筆真實飛行軌跡與 34 通道遙測,衡量模型在六至九大飛行階段的預測與安全合規。結果顯示傳統預測器精度較高,LLM 在指令遵循上表現佳,但在高負荷階段精度下降,突顯混合架構的需求。
大型語言模型
研究針對大型語言模型在航空安全領域的推理能力提出基準。PilotBench 以 708 筆真實飛行軌跡與 34 通道遙測,衡量模型在六至九大飛行階段的預測與安全合規。結果顯示傳統預測器精度較高,LLM 在指令遵循上表現佳,但在高負荷階段精度下降,突顯混合架構的需求。
FAA
美國 FAA 面對航管員短缺危機,決定將目光投向遊戲玩家。透過強調電競技能與航管工作在專注力與複雜度管理上的相似性,FAA 試圖吸引年輕人才加入。儘管開出高薪,但過時的培訓體系與冗長的招募流程仍是將其轉化為合格專業人員的主要障礙。