深度分析 HMSC 與大型語言模型(LLM)語意推理評估:Gemini‑3、GPT‑5.4、Qwen‑3.6 的限制與差異 本研究評估三款大型語言模型(Gemini‑3、GPT‑5.4、Qwen‑3.6)對高階訊息序列圖(HMSC)形式語意的理解能力。透過 129 項語意任務,涵蓋事件識別、事件排序、抽象化、組合,以及從 MSC 推導軌跡與標記轉移系統等檢驗面向。整體準確度約一半;