速報 大語言模型評估使用者狀態可靠性不足:GPT-4o 與 Gemini 證據揭示風險 本研究實證檢驗以大語言模型(LLM)量化使用者狀態的心理計量可靠性。研究團隊採用複製性評估流程,針對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型,測試 213 項指標的重測一致性,並比較個別分數與彙整後的穩定度。