速報
大語言模型評估使用者狀態可靠性不足:GPT-4o 與 Gemini 證據揭示風險
本研究實證檢驗以大語言模型(LLM)量化使用者狀態的心理計量可靠性。研究團隊採用複製性評估流程,針對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型,測試 213 項指標的重測一致性,並比較個別分數與彙整後的穩定度。
速報
本研究實證檢驗以大語言模型(LLM)量化使用者狀態的心理計量可靠性。研究團隊採用複製性評估流程,針對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型,測試 213 項指標的重測一致性,並比較個別分數與彙整後的穩定度。
人機互補
本文從認識論出發,重塑「人機互補」在決策情境中的角色。作者指出,現行的人機互補多以相對準確度的事後指標出現,缺乏理論根基,也忽視穩定性、任務適配與互動成本等關鍵面向。研究引入計算可靠主義,主張把歷史互補性視為可靠性的證據之一,並將補充性納入一組多元的可靠性指標,從而為病患、管理者與監管者等利害關係人提供實務上的判準。