質性標註 - Agents Report

深度分析

提示工程與 LLM 在軟體工程心理安全質性標註的一致性比較：Claude Haiku、DeepSeek‑Chat、Gemini 2.5 Flash 實證

本研究針對軟體工程社群中的心理安全語句，對比三款大型語言模型（Claude Haiku、DeepSeek‑Chat、Gemini 2.5 Flash）在零樣本與多例示提示下的質性封閉標註表現。研究以116條人工標註語句為金標準，對每種模型與提示組合重複執行十次，量化 Cohen’s κ、類別 F1 與跨次穩定性。