大語言模型評估使用者狀態可靠性不足:GPT-4o 與 Gemini 證據揭示風險

本研究實證檢驗以大語言模型(LLM)量化使用者狀態的心理計量可靠性。研究團隊採用複製性評估流程,針對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型,測試 213 項指標的重測一致性,並比較個別分數與彙整後的穩定度。

GPT-4o與Gemini評估

要點速報:個別分數不宜直接當即時狀態指標

研究指出,不能預設大語言模型輸出的各項使用者狀態指標在個別分數層級就具備可解釋或穩定性。團隊以複製性評估流程,對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型,檢驗了 213 項相關指標的重測可靠性與彙整後表現。

分析同時比較個別分數與彙整後的可靠度,結果發現多數指標在單次分數層級不穩定,只有少數指標達到可靠性標準;換言之,這些個別分數目前不適合直接作為即時適應系統的判據。然而,研究也指出,個別上不穩定的指標在事後分析或彙整後仍能揭示互動規則,並與使用者滿意度、信任或投入度等經驗參數建立關聯。

研究的核心貢獻除量化問題嚴重性外,還提供一套可複製的評估框架,讓設計者能在導入人工智慧判讀使用者狀態前,明確驗證指標可靠性並建立持續監測機制,從而促進更負責任的適應式系統設計。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more