大型語言模型 - Agents Report

深度分析

Sahm基準—評估阿拉伯語金融推理、伊斯蘭法合規與因果推理能力

Sahm提出首套針對阿拉伯語金融與伊斯蘭法（Shari’ah）合規推理的綜合基準，收錄七大任務、14,380筆專家驗證樣本，來源涵蓋AAOIFI規範、法學裁決與企業揭露。研究比較20款大型語言模型，發現語言流暢性不等於領域推理能力：在選擇題評估中表現優異的模型，在開放式生成任務與因果推理上顯著下滑。