Manta - Agents Report | 代理人報告

深度分析

Manta提出一個動態多回合評測框架，針對大型語言模型在實務情境下的動物福利推理進行壓力測試。系統從模型每次回應自動生成具針對性的後續追問，並以從AnimalHarmBench（AHB）衍生的多維量表逐項評分，搭配可重現的資料管線與Inspect AI基礎設施。