深度分析
以 CAMEL 與 Pydantic 建構生產級多代理系統:規劃、驗證與審核流程
本文以教學式文章改寫呈現如何用 CAMEL 框架設計一套生產級的多代理(multi-agent)系統。
深度分析
本文以教學式文章改寫呈現如何用 CAMEL 框架設計一套生產級的多代理(multi-agent)系統。
深度分析
在法律資源有限的情境下,自動化判斷哪些法律議題與案情相關,是法律科技的一道核心難題。來自 ArXiv 的研究提出 LePREC,一套結合大型語言模型(LLM)生成的問答式推理因子,與稀疏線性分類器的神經符號框架。
深度分析
RAG-DIVE 提出一套面向多回合對話的動態評估流程,透過 LLM 模擬使用者發起多回合互動,並以三個模組——對話生成(CG)、對話驗證(CV)與對話評估(CE)——連動運作。CG 根據知識文件與先前回合自動提出可回答的追問,CV 篩選並修正低品質輸出,CE 則產出逐回合與整體多回合指標來衡量檢索與生成品質。
深度分析
大型語言模型在安全關鍵工程展現可控性缺口。CAAF提出閉環決定性架構,三大支柱分別為遞歸原子分解、Harness作為資產並以統一斷言介面執行不變條件,以及結構化語意梯度與狀態鎖定。實驗於自駕L3與藥品流動反應器基準中顯示成效。能可靠偵測悖論並達成單調收斂,優於單體及其他多代理構型。
深度分析
本研究觀察到現有LLM工具使用基準多為短線性步驟。提出TheAmazingAgentRace,將題組設計為DAG結構,要求代理人從維基導航、分叉多路API調用再合併結果,並以終點正確率、途經率、路障完成率三指標分解錯誤來源。實驗顯示最佳配置僅約37%正確率,導航失誤為主因。
LLM
GitHub上出現一個以教學與實作為主的開源專案,示範如何從零實作GPT類大型語言模型。專案以JupyterNotebook與PyTorch逐步說明模型架構、預訓練流程、優化與微調方法,並附帶載入較大預訓練權重的範例與實驗代碼。對於自學者與開發者,此資源提供可操作的學習路徑與實作參考。
深度分析
隨著系統日益複雜,從平面日誌偵測異常已不足。Krone自動從平面日誌抽取實體-動作-狀態三層階層,遞回分解執行序列並在每層進行模組化偵測,結合輕量本地比對與選擇性LLM推理,重用低階模式以節省計算,並提供層級化異常定位以利解釋。實驗顯示Krone大幅提昇F1與資源效率,並降低LLM使用量。
深度分析
面對專用加速器(NPU)程式開發門檻高、訓練資料稀缺的挑戰,AscendKernelGen 提出一套生成—評估閉環流程。研究構建 Ascend‑CoT 推理式資料集,並以該資料做領域適配微調,得到 KernelGen‑LM;同時設計 NPUKernelBench 來衡量編譯、功能正確性與效能。
深度分析
一項針對大型語言模型(LLM)在社群內容策展上偏誤的實驗,透過 540,000 次模擬選擇,比對三家供應商(OpenAI、Anthropic、Google)、三個平台(Twitter/X、Bluesky、Reddit)與六種提示風格。研究發現:極化內容被系統性放大、情緒偏向多為負面,且「提示目標」會顯著改變毒性與情緒傾向。
深度分析
研究提出 EVIL:由大型語言模型引導的演化搜尋來自動發現可讀的 Python/NumPy 推論算法;該單一算法可在不做資料集微調下,對時序事件、馬可夫跳躍與時序補值等任務執行零次推論;實驗顯示其在多項基準上可與深度學習方法媲美,推論速度更快且具可解釋性。
深度分析
背景:型別註記影響術語可重解析性與型別推斷。方法:在Isabelle上形式化rank-one多型λ演算之最小完整註記問題,分析Smolka-Blanchette反向貪婪刪除與覆蓋測試。結果:人類與LLM各自草擬證明,LLM再自動形式化並在人工提示下推廣,產生三套Isabelle形式化成果,示範AI輔助程式語言型態理論的可行性。
深度分析
硬體描述語言資料稀缺,研究以多代理LLM自動產生testbench,並用資料效率微調改善規格到Verilog的生成。採多模型協作與驗證工具,自動化測試提高資料品質並縮短人力。實驗顯示在較少訓練資料下仍能生成語法正確且功能相關的Verilog程式。