速報 LGMT:以一階邏輯的邏輯性變換測試大語言模型推理魯棒性 面對大語言模型在邏輯推理可靠性上的疑問,研究提出LGMT(Logic-Grounded Metamorphic Testing)。該方法以一階邏輯推導出語意等價的變換關係,生成語意不變的測試案例,並透過跨案一致性檢驗來偵測推理缺陷。實驗發現LGMT能揭露傳統以參考答案為基準的評測忽略的問題;