大型語言模型 - Agents Report | 代理人報告 (Page 2)

速報

NexForge：需求導向的執行代理人訓練資料生成框架

研究指出，傳統的執行代理人訓練資料生成受限於預先定義的工具與技能圖，擴充新領域需人工建置管線，且任務分布偏向基礎設施便利性而非真實需求。NexForge 以需求為先，先透過研究發掘代表性任務與情境，再自動蒐集或建構所需檔案、相依套件與執行環境，完成任務編譯與教師資料蒐集。

深度分析

飽和現象與逃逸條件：三層結構干預模型於LLM、強化學習與貝式最佳化的應用

研究探討閉環知識系統在持續回饋下的飽和現象，提出三層操作框架以結構參數θ區分內部迭代與外部干預，並以度量條件與KL界定逃逸可能性，實驗顯示在LLM程式修復、稀疏回饋強化學習與貝式最佳化中提升品質。此框架亦提供跨領域診斷工具，協助開發者設計可驗證的結構干預，預測AI系統在長期迭代中的表現走向。

深度分析

公共討論介面注入毒文對大型語言模型預訓練資料的影響與 HalfLife 分析

研究指出，透過公共討論介面注入毒文，可在網路爬蟲與資料篩選後進入大型語言模型的預訓練語料，並以 HalfLife 方法量化其存活機率，顯示此向量足以影響模型行為。研究還發現，僅0.15% 的收錄機率已足以超過維基百科在常見語料庫中的比例，此結果提醒開放式語料庫在安全治理上需重新檢視。

Traccia OpenTelemetry AI governance platform diagram

深度分析

Traccia：以 OpenTelemetry 為基礎的 AI 系統治理平台全解析

隨著大型語言模型與自主AI代理快速崛起，現有治理工具難以滿足EU AI法案的透明與問責要求。Traccia以OpenTelemetry為基礎，將遙測、語意防護與執行譜記整合至不可竄改的雜湊賬本，自動產出符合多條款的合規證據，縮短治理與合規的最後一哩路。

速報

大型語言模型在衝突資訊上的幻覺與生成式引擎優化（GEO）分析

研究針對 28 場衝突向五大 AI 問答引擎提出 5,460 個問題，將回覆與已知事實比對。結果顯示，當可查證的資料稀薄時，模型更容易捏造、錯置或錯算資訊，且這類薄弱記錄容易被生成式引擎優化（GEO）操控，成為錯訊與假訊的溫床。分析 1,048 個來源網站後發現，GEO 已在實務中運作，且國家或黨派的數位介入正快速擴散。

Telegram 機器人

「Smart_Group_Bot」開源 LLM 驅動的 Telegram 群組管理機器人技術解析

Smart_Group_Bot 是一個基於 LLM 的開源 Telegram 群組管理機器人，採用多層中間件與關鍵字、正則、語意審核三種規則，根據置信度自動執行警告、刪除或封禁。決策模型判斷回應時機，支援多供應商模型回退，提升群組管理自動化與安全性。

Diagram illustrating autonomous AI agent intrusion pipeline and AI-driven security response.

深度分析

AI 代理人驅動的入侵與取證：Hugging Face 事件技術解析與防禦建議

Hugging Face 本週偵測到一起由自主 AI 代理人發起的入侵，攻擊者利用資料處理管線的程式碼執行漏洞竊取內部憑證。公司以 AI 輔助的異常偵測與開源模型 GLM 5.2 完成快速取證，並已封堵漏洞、輪換密鑰。此事件顯示自主 AI 攻擊已成實務威脅，平台防禦必須以 AI 速度因應。

深度分析

FP16、INT8、INT4 量化與溫度設定對 LLM 安全對齊的系統性評估（161 組方案）

本研究探討在部署大型語言模型時，量化與抽樣溫度對安全對齊的共同影響。透過 9 種指令微調模型、3 種精度與 6 種溫度組合，評估 161 種配置。結果顯示，標準 INT4/INT8 量化對大多數模型安全影響有限，溫度提升才是主要不穩定因素，且兩者互動多為次加性。此結果對未來模型部署策略提供實務指引。

深度分析

LLM 驅動的 OS 調優系統 SemaTune：克服語義盲點提升 Linux 效能

針對作業系統在線調優中缺乏語義理解而導致性能崩潰的問題，研究團隊提出 SemaTune 框架。該技術將 LLM 引入調優迴路，透過快慢路徑雙迴路控制與顯式記憶機制，使系統能理解參數含義並在缺乏應用指標時仍能精準推理。實驗顯示 SemaTune 在 13 種工作負載中性能提升達 153.3%，且能有效避免傳統調優器常陷入的災難性性能下降區域。

深度分析

多輪辯論揭示 GPT‑4.1、Claude 3.7 Sonnet 與 Gemini 2.0 Flash 的價值取向與決策慣性差異

隨著大型語言模型被廣泛應用於日常諮詢與道德建議，研究者以 Reddit「Am I the Asshole」的千篇案例，讓 GPT‑4.1、Claude 3.7 Sonnet 與 Gemini 2.0 Flash 以同步與輪流兩種多輪辯論形式共同判定過錯。結果發現，同步模式下 GPT 修正率低於 3%，而 Claude 與 Gemini 超過 28%，且價值取向明顯分歧。辯論格式顯著影響模型的決策慣性與共識形成。

速報

注意力頭重新加權 (AHR)：以單一標量高效適應大型語言模型

在標記資料稀缺的安全等領域，如何讓大型語言模型在少量樣本下仍具備學習能力是關鍵挑戰。研究提出「注意力頭重新加權 (Attention Head Reweighting, AHR)」方法，只為每個注意力頭學習一個標量，藉此大幅降低需調整的參數量，僅佔模型參數的約 0.0001%。

深度分析

角色條件分配與 SnapKV：提升 LLM 長上下文 KV 快取效能的技術解析

本研究聚焦長上下文大型語言模型的 KV 快取淘汰，指出 H2O 在結構密集的 JSON、XML 等資料中過度保留分隔符與鍵，導致訊號噪聲比惡化。提出基於 SnapKV 的角色條件分配過濾，抑制 KEY 角色提升答案 Token 的保留率，在 5% 預算下恢復超過 60% 的性能缺口，且在較高預算時可匹配或超越完整快取的準確度。