深度分析 以 CETT 與線性探針檢測 Qwen2.5-32B 的引用幻覺與神經元干預 研究指出,大型語言模型在僅靠參數記憶生成學術引用時,常產生看似合理卻錯誤的參考文獻。作者建立涵蓋50個電腦科學主題、八種引用格式與多款模型的大規模驗證集,逐欄位(作者、標題、會議/期刊、年份、DOI)驗證每筆引用,發現作者欄位最易出錯。