深度分析 Manta:以多回合動態壓力測試評估大型語言模型的動物福利對齊性 Manta提出一個動態多回合評測框架,針對大型語言模型在實務情境下的動物福利推理進行壓力測試。系統從模型每次回應自動生成具針對性的後續追問,並以從AnimalHarmBench(AHB)衍生的多維量表逐項評分,搭配可重現的資料管線與Inspect AI基礎設施。