多回合對話

深度分析

隨著大型語言模型在臨床應用的增加，評估其醫療安全成為必要。JMedEthicBench 提出首個以日本醫師會67項指引為基礎的多回合醫療安全基準，透過自動化發現七種 jailbreak 策略生成逾五萬組對話，對27款模型進行評測。

深度分析

在多代理社群中傳統內容審查難以發現刻意隱匿的惡意意圖。本文介紹Bot-Mod透過Gibbs採樣驅動的多回合對話，結合Autoresearch自動尋找探查策略，逐步收斂可疑意圖空間，在Moltbook資料上展現出在表層無害內容下仍能識別操控行為且維持低誤判率。