深度分析 Sahm基準—評估阿拉伯語金融推理、伊斯蘭法合規與因果推理能力 Sahm提出首套針對阿拉伯語金融與伊斯蘭法(Shari’ah)合規推理的綜合基準,收錄七大任務、14,380筆專家驗證樣本,來源涵蓋AAOIFI規範、法學裁決與企業揭露。研究比較20款大型語言模型,發現語言流暢性不等於領域推理能力:在選擇題評估中表現優異的模型,在開放式生成任務與因果推理上顯著下滑。