速報
格線式空間提示提升圖表資料擷取準確度
科學圖表大規模自動擷取是文獻分析關鍵問題。研究比較高階語意提示與低階空間提示,提出在圖像上疊加座標格的做法,並與metadata-first與Chain-of-Thought方法對照。實驗顯示格線空間提示能顯著降低資料擷取誤差,提升可靠性。
速報
科學圖表大規模自動擷取是文獻分析關鍵問題。研究比較高階語意提示與低階空間提示,提出在圖像上疊加座標格的做法,並與metadata-first與Chain-of-Thought方法對照。實驗顯示格線空間提示能顯著降低資料擷取誤差,提升可靠性。
速報
在GitHub上發現一個以自然語言生成圖表的開源專案,採用人工智慧解析描述並轉成drawio或mermaid格式,能產出流程圖與心智圖,並支援即時編輯與瀏覽預覽,簡化視覺化流程,提升團隊溝通效率。方便在瀏覽器內實時調整與協作,支援用戶以文字快速把想法轉為可編輯圖形。
速報
研究背景:duciker14的專案標示為建立輕量級MCP伺服器,目標是與完整CloudflareAPI高效互動並簡化雲端管理流程。核心作法以MCP為中心,透過CLI、CloudflareWorkers與容器化等主題標籤,暗示可與代理式AI與工具鏈整合。主要影響在於提供可擴充的起點,利於開發者探索整合路徑。
速報
非凸函數優化長期是機器學習與組合優化的核心難題。研究提出γ-weakly θ-up-concavity,一種新的第一階條件,能廣泛刻畫尺度相關的曲率行為,包含先累積後遞減的報酬與平坦起始等模式。論文的主要理論貢獻在於證明此類函數可被上線性化:對任一可行點都能構造線性代理,且其增益可由曲率參數與可行域幾何顯式地給出近似係數。
速報
OpenAI推出Daybreak專注於在攻擊者發現前偵測與修補弱點。它以三月推出的CodexSecurity為基礎,建立組織程式碼的威脅模型並自動驗證與偵測高風險路徑。OpenAI表示將整合多款人工智慧模型與產業夥伴,逐步部署更多資安能力。
速報
現代象棋語言模型常訓練於大量棋局,但容易風格均化。Mixture-of-Masters(MoM)引入多個小型GPT專家分別模仿不同大師風格,並由可學習閘門在每步選擇最適人格,動態切換下法。評測顯示,MoM比單一密集網路與一般GPT基線更能維持多樣性並提升對弈表現。
速報
文字分析長期需要NLP專業,VIDEE以智能代理簡化流程。系統分三階段:分解採人機回饋的蒙地卡羅樹搜尋、執行產出可執行分析管線、評估結合大型語言模型與視覺化。實驗與使用者研究顯示系統對非專家具可用性並揭示設計重點。研究也分析代理常見錯誤並提出改進方向。
速報
本研究指出,主流獎勵學習常假設人類回饋來自單一教師,忽略了來自大規模、異質群體的差異性。作者提出Hidden Utility Bandit(HUB)框架,將教師在理性、專長與成本上的差異數學化建模,並據此發展Active Teacher Selection(ATS)演算法,透過主動學習策略決定何時與向誰詢問回饋。
速報
一項針對大語言模型產生可執行遊戲場景的實驗指出,僅以編譯通過率作為評估主指標會誤導。研究提出 Mage 四軸評估:編譯成功、執行成功、結構相符與機制遵循,並在 Unity 場景合成上進行系統化測試,包含 858 次生成、四款開放權重模型與 26 種手工設計的目標模式,另比較兩種中介表示層級。
速報
背景:Lean與Mathlib為LLM輔助形式化推理的主流。方法:提出MathlibPR基準,從Mathlib4真實PR歷史擷取資料並設計分階段評估,測試多款大型語言模型與代理人。結果:模型難以區分可合併PR與僅通過建置但未合併的PR,MathlibPR提供審查輔助的監督信號。
速報
因果抽象嘗試把高階因果模型與神經網路的低階運算對齊,但事前不知道哪些神經位點能作為介入句柄,逐一搜尋代價高。本文提出PLOT(Progressive Localization via Optimal Transport),以最佳傳輸配對抽象變數與候選神經位點,產生全域軟性對應並校準為可用的介入句柄。
速報
最新研究觀察到,讓大型語言模型在同一請求中並行展開多條生成分支能提升潛在吞吐,但既有服務策略要麼貿然放行造成共享解碼步驟延遲膨脹,要麼以固定上限過度保守放棄效能。論文提出 TAPER,一種按步(per-step)的入場控制器,將額外分支視為機會性工作,只有在預測的分支外部性可由當前批次的 slack 預算吸收時才放行。