Open Source AI
缺乏 RLHF 與安全對齊:法國開源 AI 機器人 Lucie 因嚴重幻覺暫停服務
法國開源 AI 聊天機器人 Lucie 上線三天後即被暫停,原因在於其產生大量荒謬錯誤,包括建議食用「牛蛋」及提供非法藥物食譜。開發團隊承認模型缺乏 RLHF 訓練與安全護欄,且過早公開發布,目前已下線進行修正。
Open Source AI
法國開源 AI 聊天機器人 Lucie 上線三天後即被暫停,原因在於其產生大量荒謬錯誤,包括建議食用「牛蛋」及提供非法藥物食譜。開發團隊承認模型缺乏 RLHF 訓練與安全護欄,且過早公開發布,目前已下線進行修正。
LLM
最新研究揭露大語言模型存在「盲目拒絕」現象,即便面對不公正或荒謬的規則,AI 仍會拒絕協助使用者避開。研究發現 75.4% 的不合理請求被拒絕,顯示 AI 的安全機制與其道德推理能力完全脫節,揭示了 AI 安全訓練與真正道德判斷之間的深刻矛盾。