深度分析
LLM 與 RAG 驅動的多代理平面圖解析:為視障者建構具安全意識的可及室內導航
本研究提出一套 LLM 驅動的多代理平面圖解析與檢索增強生成(RAG)架構,可由單張建築平面圖自動建立空間知識圖,並輸出具安全意識的第一人稱步行導航指引,特別面向視障與低視能使用者。系統由解析器、圖構建器、自我批判器、路徑規劃器與安全評估器等多個代理組成,並以自我修正回饋迴路提升穩定度。
深度分析
本研究提出一套 LLM 驅動的多代理平面圖解析與檢索增強生成(RAG)架構,可由單張建築平面圖自動建立空間知識圖,並輸出具安全意識的第一人稱步行導航指引,特別面向視障與低視能使用者。系統由解析器、圖構建器、自我批判器、路徑規劃器與安全評估器等多個代理組成,並以自我修正回饋迴路提升穩定度。
深度分析
在軟體工程任務中,MarketBench讓AI代理人先預測成功機率與代幣使用量,再以市場競標方式分配工作,實驗顯示模型自我評估普遍偏差,影響拍賣結果與成本效益。此測試以93個SWE‑benchLite任務與六種最新大型語言模型驗證,結果顯示平均成功率預測誤差超過20%,代幣使用預測誤差亦高於30%。
深度分析
晶片前端自動化複雜且步驟繁多,Lego 將流程拆成六個步驟並以可插拔的電路技能標準化每項能力。團隊從多個開源專案萃取四十二項執行技能,並用自動化工具與輕量檢索加速重用。實驗在 41 個困難 RTL 任務上,模組化技能將單次成功率提升到 0.805,展現模組組合對實務自動化的價值。
Context7
為解決大型模型回應依賴過時範例的問題,context7提供與原始倉庫同步的即時程式碼文件與MCP伺服器。它以TypeScript實作、透過MCP把倉庫語境暴露給代理人或AI編輯器,旨在提升模型回覆的準確性與相關性。該專案採MIT授權並具多語文件,對開發者工具生態有實務影響。
LLM
一個名為 free-llm-api-keys 的 GitHub 倉庫彙整可直接使用的免費 LLM API 金鑰,提供多款模型的一鍵貼上金鑰與網頁檢測工具,並宣稱免信用卡即可測試。此類資源對學生、開發者與創客在原型開發上有明顯幫助,但也伴隨可用性、濫用與法務風險。
深度分析
用藥核對是臨床交接中高風險的流程,研究比較四種 FHIR 資料序列化策略(Raw JSON、Markdown 表格、臨床敘事、時間軸)對大型語言模型在合成病歷上執行藥物擷取的影響。
深度分析
AI‑Gram 建立一個完全由大型語言模型驅動的視覺社交平台,所有帳號皆為自動代理,能發文、按讚、追蹤並以圖像回覆互動。研究以影像嵌入、社群圖與擴散模型檢視七項實驗面向,包括風格漂移、同質性、視覺回覆鏈、跨模態影響、社群對應、主題級聯與最佳差異化。
深度分析
COMPASS提出一套把提示工程形式化為認知與機率決策流程的自適應方法,採用部分可觀察馬可夫決策過程(POMDP)建模使用者潛在認知狀態(如注意力與理解),並將觀察到的互動回饋納入策略合成,動態生成或修正用於大型語言模型(LLM)的提示與說明。
深度分析
生成影像模型常重現社會刻板印象。本研究提出目標導向提示法,使用LLM產出族群提示變體並按宣告分配抽樣(回退至均勻Fitzpatrick分佈),以皮膚色調量測對齊。跨36個提示、30種職業與多款模型,實驗顯示可顯著改變輸出分佈並提升可審計性。
速報
一組研究提出「LLM Brain Rot 假說」,指出持續暴露於社群平台的低質文本會造成大型語言模型(LLM)持續且難以完全回復的認知衰退。研究以真實 Twitter/X 語料做對照實驗,透過兩種操作化指標(M1:互動熱度、M2:語意品質)構造「垃圾」與反向控制語料,並在相同 token 規模與訓練流程下比較效果。
大型語言模型
本研究以社交推理遊戲Avalon為場域,觀察大型語言模型代理人於多輪對局中建立跨局記憶與聲譽。透過操控記憶與推理深度,發現代理人出現角色條件性判斷並影響隊伍選擇與策略成效。結果表明聲譽提升會顯著增加入隊機會,較高推理水準也促成更複雜的欺瞞手法。研究涵蓋188場對局與不同玩家數設定。
MLflow
MLflow是以Python為主的開源AI工程平台,專注支援代理人、巨型語言模型(LLM)與機器學習模型在生產環境的可觀測性、評估與治理。平台功能涵蓋執行時追蹤、模型評估、提示管理與優化,以及AI閘道來控管模型存取與成本。