深度分析
Bits-over-Random(BoR):為何在 K=100 下檢索覆蓋率 >99% 仍接近隨機
研究發現對LLM的大量檢索下,表面>99%成功率可能等同隨機。論文提出Bits-over-Random(BoR)=log2(Pobs/Prand)衡量檢索選擇性,指當λ=K·R̄q/N超過3–5時選擇性崩潰,建議以BoR指引K與工具載入策略。
深度分析
研究發現對LLM的大量檢索下,表面>99%成功率可能等同隨機。論文提出Bits-over-Random(BoR)=log2(Pobs/Prand)衡量檢索選擇性,指當λ=K·R̄q/N超過3–5時選擇性崩潰,建議以BoR指引K與工具載入策略。
GEA
同一LLM生成試題、模擬回應並評分,提出Generative‑Evaluative Agreement(GEA)衡量生成與評分一致性。以皮爾森r與偏差量化,在24項Python OOP技能上得r=0.698、平均偏差+0.059,語法性技能一致性較好,設計性技能則接近零。
深度分析
系統提示是現代 AI 控制的關鍵元件,但在只有聚合回饋(scalar feedback)情境下難以調校。ReElicit 提出「引導式嵌入」(embedding by elicitation),由 LLM 從任務說明與已評估提示與分數中萃取少量語意維度,形成可供高斯過程代理模型與貝式優化使用的連續表示;
深度分析
面對透過 API 進行的未授權知識蒸餾,研究提出將水印移到互動層:透過系統提示間歇誘發追問、低密度變體或重述等行為標記,使被盜取的學生模型在回應行為上保留可查證跡象。
深度分析
本研究在醫療倫理的基礎上,建立50則臨床兩難基準與決策歸因法,直接從模型選擇回推價值權重。結果發現前沿語言模型在單案上決策高度一致但缺乏醫師間的分佈式多元,少數模型顯著低估病人自主,部署時有取代臨床多元的風險。研究同時觀察到模型在推理文字中會討論相互衝突的倫理但最終仍做出一致選擇。
深度分析
面對從輸入輸出行為推導程式的挑戰,作者提出DIO-Agent以LLM作為變異器、將發展視為演化搜尋,並以轉換優先原則偏好簡單假說。實驗顯示其在多難度IO2CodeBench上普遍優於既有方法。方法透過分階課程從常數到迴圈逐步擴充結構,並以執行誤差回饋導向變異,能減少過擬合與結構性盲點。
深度分析
CAX-Agent 提出以「代理 harness」為核心的 MAPDL 自動化中介,將大型語言模型本地推理、外部高階 LLM 與求解器整合為三層執行架構。系統引入回復階梯(由規則修補、模型驅動重生、情境增強到人工升級)由 orchestrator 管理重試預算與執行狀態,將錯誤日誌作為條件提示回饋給模型以生成修正 APDL。
深度分析
面對電商真實買家行為多樣性,SimPersona以行為感知的VQ-VAE從點擊流學習離散買家類型。再把每類對應成LLM詞彙的persona token並兩階段微調,使代理能以單次編碼指派身分並重現店家層級的人口分布。實測在多家未見即時店面上達到78%轉換率對齊並優於更大基線。
深度分析
在後訓練資料生成中,直接完整輸出再篩檢會浪費大量代幣。MSIFR(Multi-Stage In-Flight Rejection)提出一種輕量、無需再訓練的多階段驗證框架,將生成流程拆成問題、部分解、完整解與最終評估四階段,於中間節點以規則式驗證器(檢查算術一致性、幻覺模式與格式違規等)即時終止低品質生成軌跡,避免繼續消耗代幣。
PyTorch
Automodel是GitHub上的開源專案,聚焦PyTorch原生分散式訓練平台。同時支援HuggingFace模型即插即用,方便微調與預訓練流程。專案採DTensor與SPMD設計,搭配優化配方與自訂內核以提升大模型訓練效能。對研究與工程團隊來說,能降低整合門檻並提高訓練效率與可擴展性。
LLM
Cocada 是一款以 macOS 桌面為主的開源工具,設計目標是把多個角色化的 LLM 代理(例如標記為 CTO、Dev、QA 的代理)編排成完整、可重複的開發流水線。
深度分析
3D資源數量多但難以直接部署為背景。AmaraSpatial-10K以公制尺度、語義錨定、PBR材質與碰撞外殼統一資產表徵,並附詳實文字與參考影像,旨在提升場景佈局與語意檢索可用性。評測顯示其文字到資產檢索精準度較Objaverse提升3.4倍。