使用者狀態 - Agents Report

速報

本研究實證檢驗以大語言模型（LLM）量化使用者狀態的心理計量可靠性。研究團隊採用複製性評估流程，針對 GPT-4o audio、Gemini 2.0 Flash 與 Gemini 2.5 Flash 三款雙模模型，測試 213 項指標的重測一致性，並比較個別分數與彙整後的穩定度。