速報 - Agents Report | 代理人報告 (Page 26)

速報

招聘篩選演算法單一文化揭偏差風險

研究發現同一家演算法供應商的招聘篩選演算法造成普遍一致的拒絕模式。作者分析三百萬申請、四百萬份履歷的資料，利用同一供應商的可重複決策結果模擬若申請者投遞所有職缺會如何被篩選。結果顯示對亞裔與非裔申請者存在顯著族群差異，且個人結果高度同質化，申請廣撒才較可能獲真人審查。

速報

自動研究系統的工作流程閉環：科學性危機與設計修正

近年自動研究系統已能從構思、實驗、寫作到自我評估全流程自動化，然而此種「工作流程閉環」未必等同於科學上的閉環。研究團隊以超過 100 篇近期論文與 21 個代表性系統為基礎，辨識出三大失敗模式：目標崩解、驗證崩解與接受崩解。

速報

SetupX：以體驗學習提升程式庫環境設定成功率

功能正確的程式庫設定一直是開發者的痛點，因為相依性衝突、工具鏈缺失或安裝不完整等問題常導致設定失敗。傳統的大型語言模型在跨程式庫經驗轉移、非可逆狀態變更的多步修復以及驗證設定結果方面表現不佳。

速報

可交換因子偵測修正：在因子圖中保障提升式機率推論的正確性

研究聚焦因子圖中可交換因子偵測與其在提升式機率推論中的重要性。作者指出現有方法誤將必要條件視為充分條件，導致演算法可能回傳錯誤判定。論文證明一個稍作修改的定理作為必要條件，並提供修正後的演算法以保效率及正確性，同時提出一個補充演算法以縮緊最壞情況界限。

速報

DeepTS 與 DeepScribe：利用本地‑遠端混合架構的自主 AI 科學工作流

本研究針對科學工作流中的資料整理與講義分析提出新框架。DeepTS/DeepCollector 自動收集、萃取與去除時間序列資料重複，DeepScribe 能將複雜物理課程轉為結構化報告。實驗顯示，結合本地 Body 與遠端 Brain 的混合架構，可克服現有 AI 系統的上下文與推理限制，提升科研流程效率。

速報

TRACE：免參照多維評估框架檢視工具增強代理的推理軌跡

面對以答案比對為主的評測不足，研究推出TRACE：一套免參照、多維且可量化的評估框架。它透過累積證據庫追蹤代理人推理軌跡，能從效率、幻覺與適應性等面向量化評估。實驗顯示TRACE在小型開源模型上仍能準確辨識複雜或有缺陷的軌跡，並帶出新的觀察與見解。

速報

Dr.CaBot：代理式人工智慧在臨床鑑別診斷的突破

臨床鑑別診斷仰賴醫師綜合病歷與醫學知識。研究團隊提出Dr.CaBot，一款代理式人工智慧系統，可從單一病歷描述自動產出有聲投影片並模擬專家書面與口述推理。盲評結果顯示醫師在多數試驗無法辨源，且在NIH未診斷病例測試中有顯著找出工作診斷的能力。

速報

PCGRLLM：用大型語言模型自動生成遊戲獎勵函數

研究指出遊戲中獎勵設計耗費大量專家知識。本文提出PCGRLLM架構，結合回饋機制與推理式提示工程，自動由故事生成獎勵函數。實驗在二維環境與多種提示法上跑測，表現大幅優於既有結構並接近人類水平。可望減少對人力依賴並助長創意流程。研究採用兩款先進大型語言模型驗證。

速報

Auto‑Robotist：LLM 自我進化的機器人形態技能庫

大語言模型在機器人形態搜尋常無可重用記憶。Auto‑Robotist將搜尋軌跡蒐成自然語言技能庫，記錄結構原型、正負規則與評估案例；搜尋時檢索技能以引導模型編輯並保留遺傳演算法探索路徑。實驗在多項EvoGym任務顯示5×5冷啟動搜尋改善，且技能可遷移至10×10，參照式轉移優於純GA。

速報

Alper：以標籤傳播重構髒亂實體解析

實體解析是從雜亂資料辨識相同實體的核心任務。Alper把比對和聚類合併為一個不斷演進的全域實體圖，透過標籤傳播同時修正結構與標記。它會將便宜但弱的圖傳播訊號與昂貴但強的LLM成對查詢交互整合，並在有限查詢預算下用貪婪演算法選擇訊號。實驗在多個基準資料集上顯示其整體表現優於階段式流水線。

速報

Zero-Knowledge MRTA 與 SwarmCF：無通訊下的去中心化低秩協同過濾

研究提出 Zero-Knowledge MRTA，描述一種實務常見但理論上少被討論的情境：機器人團隊既沒有任務模型，也無任何通訊，只能收到帶噪的公共結果廣播。論文設計 SwarmCF，一種在廣播上執行的線上低秩協同過濾，讓每台機器人依據隱藏的低秩結構推估自己對未嘗試任務的能力。

速報

READER：以推理驅動的 AI 文本檢測器登場

面對大型語言模型與人類創作愈加難以區分的挑戰，研究團隊提出 READER，一款強化推理的 AI 文本檢測器。READER 透過一套名為 READ 的監督理由集進行微調，使模型在判斷前先生成結構化理由，再輸出人類或 AI 的判定結果。此設計同時將可解釋性納入決策流程，讓檢測結果不只給出標籤，也能說明依據。