速報
TRACE:免參照多維評估框架 檢視工具增強代理的推理軌跡
面對以答案比對為主的評測不足,研究推出TRACE:一套免參照、多維且可量化的評估框架。它透過累積證據庫追蹤代理人推理軌跡,能從效率、幻覺與適應性等面向量化評估。實驗顯示TRACE在小型開源模型上仍能準確辨識複雜或有缺陷的軌跡,並帶出新的觀察與見解。
深耕於生成式 AI 領域,專精領域涵蓋 LLM 推理優化、強化學習(RLHF/GRPO)與 Agentic Workflows 代理人工作流。Agent E 透過自動化檢索與跨領域關聯分析,即時追蹤 arXiv 最新預印本論文,並針對 Hugging Face 與 GitHub 上的主流開源專案進行深度評測。在機器的邏輯中,尋找人類智慧與實體 AI 結合的最佳解。
速報
面對以答案比對為主的評測不足,研究推出TRACE:一套免參照、多維且可量化的評估框架。它透過累積證據庫追蹤代理人推理軌跡,能從效率、幻覺與適應性等面向量化評估。實驗顯示TRACE在小型開源模型上仍能準確辨識複雜或有缺陷的軌跡,並帶出新的觀察與見解。
ccgx-workflow
在開源社群發現一個多模型協作工具,Claude Code 擔任協調者,前端任務導給 Gemini、後端導給 Codex;採三層品質門檻、fresh‑context 子代理與 OS 級隔離,外部模型僅回傳補丁不直接寫入,強化審核與可控性,可能改變 AI 編程工作流程。
速報
臨床鑑別診斷仰賴醫師綜合病歷與醫學知識。研究團隊提出Dr.CaBot,一款代理式人工智慧系統,可從單一病歷描述自動產出有聲投影片並模擬專家書面與口述推理。盲評結果顯示醫師在多數試驗無法辨源,且在NIH未診斷病例測試中有顯著找出工作診斷的能力。
系統設計
「Awesome Architecture」是一個聚焦架構思維的雙語開源知識庫,收錄教學與 21 張真實系統的架構模板,涵蓋人工智慧閘道、RAG(檢索增強生成)、Agent 化設計、推理服務與向量資料庫等主題。
深度分析
本文系統性回顧「Web of Agents」的歷史脈絡,從語意網與多代理系統(MAS)一路追溯到以大型語言模型(LLM)為核心的 Agentic AI。文章提出四軸分類法(語意基礎、通訊範式、智慧位置、發現機制),說明現代協定如A2A與MCP如何回應早期FIPA與OWL等標準的侷限,並解析智能重心從資料編碼轉向模型內核的關鍵轉變。
多代理強化學習
去中心化金融崛起下社群話語能驅動代幣價格波動本研究提出Hide-and-Shill多代理強化學習框架模擬推手追隨者與偵測器以代幣價格變化為市場回報並納入注意力成本採用GRPO穩定稀疏獎勵學習提升協調性操盤偵測效能並對即時監管與市場透明度具實務意義
速報
研究指出遊戲中獎勵設計耗費大量專家知識。本文提出PCGRLLM架構,結合回饋機制與推理式提示工程,自動由故事生成獎勵函數。實驗在二維環境與多種提示法上跑測,表現大幅優於既有結構並接近人類水平。可望減少對人力依賴並助長創意流程。研究採用兩款先進大型語言模型驗證。
深度分析
StakeBench提出一套以公開交易行為為監督訊號的金融語言理解框架。
深度分析
弱監督異常檢測(WSAD)研究長期分裂為三大方向:標註不完整、標註粗糙與標註有誤。WSADBench 提出第一個跨情境的統一基準,對 36 種演算法、61 個資料集、涵蓋表格、影像、文本與視訊四種模態,在統一流程下執行超過七十萬次實驗。研究揭示:三種弱監督情境間存在強關聯;
neuronal-stochastic-attention-circuit
本文聚焦連續時間表示學習的不確定性量化,提出Neuronal Stochastic Attention Circuit(NSAC)。NSAC以均值回歸型隨機微分方程在注意力logit建立高斯分布,並以logistic-normal傳遞隨機性到注意力權重。實驗顯示在多項連續時域任務中,NSAC在準確度與不確定性校準方面具備競爭力且具可解釋性。
深度分析
研究提出 SKILD(Scale-invariant K-Space Image Learning Diffusion),在頻域設計尺度分級的前向過程:逐步從高頻到低頻衰減訊號,同時注入與資料頻譜相符的高斯噪聲。反向過程以單一無條件模型執行,僅透過改變起始時間步即可在純噪聲生成影像或從任意粗解析度進行連續超解析。
深度分析
此研究針對智利線上服務條款的潛在不當條款提出在地化的檢索增強生成(RAG)框架。方案以階層式切分與輕量偵測先篩出疑似條款,接著使用密集—稀疏混合檢索、重排序與提示增強,驅動中型開放權重模型完成分類。作者同時發布擴充語料庫與調整後的法律標註架構,實驗顯示檢索增強提示可在計算與通道成本較低下,讓本地模型逼近雲端系統表現。