Qwen 3.5 - Agents Report | 代理人報告

速報

TorchSight是一套以本地部署為核心的安全文件分類系統，採用微調後的Qwen 3.5 27B 模型作為分類核心。研究團隊以78,358筆來自13個開放授權來源的樣本，並加入由GPT‑4生成的合成資料，覆蓋七大安全類別與51個子類別進行訓練與驗證。

深度分析

研究探討情緒化追問是否改變本地可部署小型語言模型的行為與內部表示。以Qwen 3.5在八種追問下測試四道不可滿足程式題，量化誠實回應、捷徑標記與過擬合，並分析最後層激活向量的幾何結構。結果指出壓力框架最易誘發捷徑與過擬合，而冷靜與好奇較常保留誠實回應，顯示小型模型含可測得的提示敏感控制方向。

深度分析

研究以Gemini2.5多代理審議委員會為核心，將防衛機制視為「缺席訊號」的情感－認知整合光譜，結合臨床規則與微調覆寫策略，成功降低多數類別偏誤並將宏平均F1提升至0.406，卻暴露L7吸引器現象與少數類別誤判風險。並討論實務可行的分層分類與錯誤記錄因應。