深度分析 在語言模型中以 Compactor 模擬工作記憶:實驗方法與教育應用啟示 本研究系統性比較大型語言模型(LLM)與人類在多項記憶任務上的表現,建立包含十個任務的基準測試,並收集人類參考資料。作者發現預設模型在多數任務達到近乎滿分,顯著超越人類記憶表現。
深度分析 語言模型中的語域偏見:對照評分、效應量與反事實公平性微調的評估 研究檢視語言模型對語域差異的隱性偏見,使用意圖等價的SAE與AAVE推文並以12項特質、Likert量表評分,採絕對與對照兩種提示法比較模型反應。結果顯示並列比較會放大對AAVE的負向刻板印象,且明示語域反而加劇偏見,呼籲更嚴謹的評估與緩解策略。