深度分析 提示工程與 LLM 在軟體工程心理安全質性標註的一致性比較:Claude Haiku、DeepSeek‑Chat、Gemini 2.5 Flash 實證 本研究針對軟體工程社群中的心理安全語句,對比三款大型語言模型(Claude Haiku、DeepSeek‑Chat、Gemini 2.5 Flash)在零樣本與多例示提示下的質性封閉標註表現。研究以116條人工標註語句為金標準,對每種模型與提示組合重複執行十次,量化 Cohen’s κ、類別 F1 與跨次穩定性。