自然語言處理 - Agents Report

深度分析

NEWSAGENT 基準測試：AI 代理在真實新聞寫作中的搜尋與編輯能力評估

本研究提出 NEWSAGENT，一個專為評估多模態 AI 代理在真實新聞寫作任務中表現的基準測試。該基準包含 6,237 個由真實新聞文章經人工驗證的範例，將新聞寫作流程拆解為時序感知搜尋與內容編輯兩項核心功能。研究發現，當前 AI 代理雖能有效檢索相關事實，但在規劃敘事結構與整合資訊方面仍顯不足，與人類記者存在明顯差距。

Patina

開源工具 Patina 運用確定性模式比對，去除 AI 腔調讓生成文本人性化

針對 AI 生成文本中常見的機械化口吻，開源專案 Patina 在 GitHub 快速竄升。該工具採用確定性的模式比對機制，偵測 AI 特有的包裝語句並在不改變原始數據與因果關係的前提下進行重寫。Patina 支援中英韓日四國語言，可整合至 Claude Code 與 Cursor 等 AI 代理工具中，為開發者提供可審計且保留原意的人性化寫作方案。

深度分析

LLM-as-a-Judge 陷阱：解析多國語言與低資源語言評估的可靠性危機

隨者 LLM-as-a-Judge 成為 NLP 任務的主流評估方式，其在多國語言環境下的可靠性受到質疑。研究人員分析 ACL Anthology 論文發現，許多研究在低資源語言中過度依賴單一 LLM 評審，且缺乏針對目標語言的人類驗證，導致評估結果可能被高估。這凸顯了現有評估體系在非英文環境的脆弱性，研究建議必須建立針對低資源語言的驗證機制以確保司法或安全等高風險輸出的可靠性。

深度分析

GAversary：結合基因演算法與 GloVe 的黑箱對抗文字生成技術解析

本篇報導深入解析 GAversary，這項以基因演算法為核心、輔以 GloVe 詞向量引導的對抗文字生成方法。研究僅以模型回傳的 logits 作為黑箱資訊，透過突變與交配機制在廣大詞彙空間中搜尋語義相似且具破壞性的替換詞。

速報

LLM代理人策展：用大型語言模型提升表型文字對齊本體的基準評測

研究指出表型自由文字註記是跨研究整合的關鍵瓶頸。採用五款來自Anthropic與OpenAI的大型語言模型作為代理策展人，在封閉工作區內以原始出版PDF、本體與原始註記指南執行Entity–Quality註記並比對既有金標準，結果顯示所有代理人表現落在受訓人類註記者的變異範圍內且優於SemanticCharaParser。

速報

ai-drawio：以自然語言與人工智慧生成 drawio／mermaid 圖表

在GitHub上發現一個以自然語言生成圖表的開源專案，採用人工智慧解析描述並轉成drawio或mermaid格式，能產出流程圖與心智圖，並支援即時編輯與瀏覽預覽，簡化視覺化流程，提升團隊溝通效率。方便在瀏覽器內實時調整與協作，支援用戶以文字快速把想法轉為可編輯圖形。

Case-Grounded Evidence Verification

案例導向證據驗證：提升醫學影像與自然語言推論的可靠性

研究背景：證據導向推理常因監督不足而失效。方法：提出案例導向證據驗證框架，利用自動化程序生成支援與非支援樣本，包含反事實與主題負樣本。結果：在放射科實驗中，驗證模型顯著超越僅案例或僅證據基線，且在證據缺失時性能急遽下降，顯示真實依賴。

HolUE

HolUE：開放式文字分類的不確定性估計方法與實驗驗證

研究針對開放式文字分類的可信度需求，將 HolUE 方法套用於文字領域，捕捉查詢與資料分布的不確定性。實驗在四大資料集上提升 40% 至 365% 的預測拒絕率，顯示對未知類別的辨識更為安全可靠。

ModernBERT

利用 ModernBERT 與 GPT-OSS 分析臨床對話：實現憂鬱症自動偵測與即時篩檢

研究人員開發出一套 AI 系統，能透過分析基層醫療門診的對話錄音自動偵測憂鬱症。透過對比 ModernBERT 與 GPT-OSS 等模型，發現分析醫病雙方對話能顯著提升準確率，且在對話初期即可捕捉到關鍵訊號，有望將憂鬱症篩檢轉化為非侵入式的被動監測流程。