LLM - Agents Report | 代理人報告 (Page 6)

深度分析

利用 Verdict‑and‑Refinement 方案優化 FOLIO、MALLS NL‑to‑FOL 標註與 LLM 評估

本研究檢視FOLIO與MALLS基準，發現約39%與36%標註錯誤，並提出LLM輔助審核框架，使人工校正僅需檢視24%與13%資料即可達90%正確率，修正後三款主流LLM在測試上提升9至22個百分點，顯示資料品質對神經符號AI評估關鍵與未來發展有關。

深度分析

少樣本潛在門校準：低資源語言模型安全拒絕率提升至 71%

研究指出，多語言大型語言模型在低資源語言的安全拒絕失效，並非缺少有害表示，而是校準門檻偏移。透過少量目標語言範例重新校正高資源門檻，即可大幅提升拒絕率，同時保留指令完成能力。此方法僅需1至4筆範例即可完成校正，顯示低資源安全問題可藉現有表示修正，降低大量語料標註成本。

深度分析

資料湖代理人技能優化：利用 Bauplan 分支 Lakehouse 進行寫入驗證

隨著編碼代理人成為資料湖主要使用者，僅靠模型品質已不足。研究以分支LakehouseBauplan為平台，透過技能與agents.md優化，將程式碼映射為可驗證的寫入變更，沙盒與程式化檢查提升任務正確率約31.9%。此證明寫入路徑驗證是提升代理人效能的關鍵。

速報

LLM 成為 GPU 核心效能預測代理，大幅提升深度學習核函式搜尋效率

GPU 核心函式的效能測試成本高，研究以大型語言模型作為選擇性 GPU 替代，預測核函式相對表現。實驗顯示 LLM 能準確預測且經強化學習後校準度提升，讓搜尋在相同 GPU 預算下評估更多候選。最終找到的核函式比傳統基線更快，證明 LLM 可成為 GPU 虛擬模型，協助核函式優化。

速報

Sophrosyne：降低 Text2SQL 探索過度的智慧資料系統介面

研究指出，Text2SQL 代理人在使用細粒度 API 時常會過度探索，導致查詢不準確。Sophrosyne 透過在 API 回應加入指示，引導代理人聚焦相關結構，成功將過度探索降低 4.6 倍，提升正確率約 12.4%。此方法為提升 LLM 生成 SQL 的效能提供新思路。

深度分析

LLM 計費漏洞與機制設計：從分詞誤報到按字元定價

面對以每代幣計費的雲端LLM服務，供應商可透過誤報分詞增加收益。研究提出揭露產生過程與按字元計費兩種對策，實驗顯示在透明化下仍存在可被利用的啟發式攻擊並能造成顯著加價，因而主張改為按字元線性定價以消除策略動機。並分析其對AI產業、開發者生態與商業模式的長期影響。

深度分析

Agentic ASR：以多回合語意校正與 S2ER 強化互動式語音辨識

隨著語音成為大型語言模型與助理的主要輸入介面，傳統單次轉錄的 ASR 容易在含命名實體、口音或混語場景中產生難以修復的語意錯誤。該研究把互動式語音辨識（Interactive ASR）定義為一個有狀態的多回合精修任務，提出 Agentic ASR：結合單次 ASR 前端與基於大型模型的語意校正、意圖路由與推理式編輯，構成閉環修正流程。

LLM

free-llm-api-keys 實務分析：API 金鑰可用性、濫用風險與本地化推理選項

GitHub 倉庫 free-llm-api-keys 彙整多款可直接貼入使用的免費 LLM API 金鑰，主打免信用卡、免註冊、可用於支援 OpenAI SDK 的工具與實驗環境。專案每日多次更新並提供在線驗證機制，但金鑰屬於公開共享資源，易遭預算耗盡、頻繁失效與被濫用，對生產環境並不安全。

深度分析

LLM 驅動社交代理在新聞回覆中的仇恨言論與語意對齊實證評估

本研究檢視大型語言模型（LLM）生成的短回覆能否重現真實受眾對新聞的可量化特性。研究以 Hatemedia 基準為基礎，將5,631則新聞與58,555則真實回覆作為刺激，使用五款開源 LLM（包含 Mistral7B、Mistral24B、Llama8B、Qwen3、GPT-OSS）在兩種生成條件（原始模型與微調）下產生配對合成回覆。

深度分析

從人格提示到「熱門度偏差」：LLM 在學者推薦中的影響與治理要點

研究檢視大型語言模型在學者推薦的「人格提示」效應。作者系統化變動提問中的請求者身分與內容，在六個學科與四十三種模型上比對技術品質與社會代表性。結果顯示模型本身決定回應有效性，而請求內容如名單長度與領域影響事實性；地理位置這類人格提示則顯著改變被推薦者的族群構成，進一步影響學術可見性與資源分配。

深度分析

檢索增強推薦（RAG）下的顯著性分層失敗：37,000 次生產級執行的發現與對策

研究以37,000次生產級測試，評估檢索增強推薦在商用問答對品牌露出與失敗型態。方法把533家品牌分五個顯著性階層，透過多模型與多檢索條件測量檢索、說服力與定位三大瓶頸。結果顯示頭部品牌可被檢索但轉換率低；長尾與區域品牌有半數未曾露出，需分層行銷策略。

深度分析

多代理 StoryMI：結合情境故事與互動管理以提升 LLM 的動機性面談（MI）策略遵循

研究聚焦動機性面談(MI)自動生成的情境化與策略控制問題;StoryMI以問卷建立個案並擴展為情境故事,由治療師、個案與互動管理三類代理協同生成帶MI行為代碼的對話,互動代理動態選擇宏觀策略。實驗在一千組問卷與六千場模擬對話及六款LLM上驗證,顯示情境落地與宏觀控制能提升MI遵循度與臨床合理性。