language-models

深度分析

本研究系統性比較大型語言模型（LLM）與人類在多項記憶任務上的表現，建立包含十個任務的基準測試，並收集人類參考資料。作者發現預設模型在多數任務達到近乎滿分，顯著超越人類記憶表現。

深度分析

研究檢視語言模型對語域差異的隱性偏見，使用意圖等價的SAE與AAVE推文並以12項特質、Likert量表評分，採絕對與對照兩種提示法比較模型反應。結果顯示並列比較會放大對AAVE的負向刻板印象，且明示語域反而加劇偏見，呼籲更嚴謹的評估與緩解策略。