MaSH 迴圈:以社會—機器—人視角重構生成式人工智慧評估
背景:評估工具不只量測,還會形塑模型被看見的價值。做法:提出MaSH迴圈,將模型、使用者與制度視為互構社會技術系統,並以World Values Benchmark結合世界價值調查與結構化提示進行分布式評分。這使得誰的價值被放大成為關鍵問題。結果:評估是治理行動。
MaSH 迴圈:重構生成式人工智慧評估
生成式人工智慧的評估不只是量測,其工具同時在形塑被看見的意義與價值。
作者提出描述性的替代方案,認為功能主義基準把模型視為孤立的預測器,規範式方法則評估系統該如何表現;兩者都忽略了價值與意義如何在社會技術互動中被建構。為此,提出Machine-Society-Human(MaSH)迴圈框架,將模型、使用者與制度視為相互回饋的構成要素,強調評估應檢視互動中如何實踐價值。
方法論上,論文提出World Values Benchmark,採分布式取樣方式,結合世界價值調查資料、結構化提示與錨定感知的評分流程,以期把評估建立在多元價值分布上。實證部分以兩個案例說明:探討早期GPT-3出現的價值漂移,以及在房地產場景中以社會技術視角進行的評估。
結論指出,靜態基準不足以捕捉生成式人工智慧在實際社會脈絡中的作用。負責任的評估應轉向多元、過程導向的框架,因為評估本身就是一種治理行動,會決定哪些價值被放大、哪些被忽略。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。