速報
Isometry Pursuit:從寬矩陣辨識等距嵌入的凸優化法
研究提出IsometryPursuit,一種凸方法用以從寬矩陣辨識正交列子矩陣。流程以新穎正規化搭配多任務基底追索;應用於假設座標函數的Jacobian,可由可解釋字典中辨認等距嵌入。實驗與理論支持其在座標選取與多樣化問題上,作為對貪婪和暴力搜尋的替代。
速報
研究提出IsometryPursuit,一種凸方法用以從寬矩陣辨識正交列子矩陣。流程以新穎正規化搭配多任務基底追索;應用於假設座標函數的Jacobian,可由可解釋字典中辨認等距嵌入。實驗與理論支持其在座標選取與多樣化問題上,作為對貪婪和暴力搜尋的替代。
深度分析
研究以聊天型AI平台對話紀錄衡量職業對AI的曝露度,發現平台使用者組成與任務分配造成測量偏差。學者把偏差分為跨職業代表性與職內任務選擇兩類,並展示不同平台與通道會產生相異結果。將平台權重重置為勞動力分布可顯著降低估計偏誤,顯示現行平台度量難以直接外推至整體勞動市場。
速報
針對大型中文語言模型缺乏跨領域能力評估,研究團隊提出一套涵蓋醫學、法律、心理與教育的多任務準確度測試。測試在醫學(含15項子任務)與教育(含8項子任務)等細分領域檢視模型廣度與深度。結果顯示模型間零次學習表現差距顯著,整體最高平均零次準確度為0.512,臨床醫學由單一模型達到0.693,而法律領域表現普遍低落,最高僅0.239。
深度分析
研究背景:LLM代理表現不只仰賴模型權重,也受執行時介面影響。方法:Life-Harness從訓練軌跡演化出四層可重用介面干預,涵蓋環境契約、程序技能、動作驗證與軌跡調節,評估期固定不變。結果:在七種確定性環境與18個模型骨幹上整體相對提升88.5%。
深度分析
直播推薦系統傳統倚賴 item ID 的協同過濾,卻與直播短暫的內容壽命產生根本衝突。
深度分析
這篇論文重新檢視「Transformer 圖靈完備」的說法,區分兩種常被混淆的分析場域:一是單一固定部署的系統(fixed-system),二是隨輸入長度擴展模型資源的族群視角(scaling-family)。
深度分析
本研究探討是否能用形式化方法驗證以傅立葉神經算子(FNO)為基礎的偏微分方程(PDE)代理模型。作者觀察到:在固定格點與已訓練權重下,FNO 的光譜捲積可視為線性映射,整個前向傳遞對 ReLU 層而言為分段線性,因而可精確編譯成 SMT 求解器可處理的線性實數算術表述。
深度分析
背景:擴散語言模型的槽位填充順序會顯著影響生成品質。方法:McDiffuSE把槽位選擇視為決策問題,利用蒙地卡羅樹搜尋透過前瞻模擬與模型置信先驗搜尋最佳填充順序,混合即時置信與 rollout 回報。結果:在多個推理與程式碼基準上明顯提升正確率,程式碼任務增益尤其顯著。
大型語言模型
一組研究提出將大型語言模型(LLM)的推理策略設計自動化,透過系統化搜尋與步驟精簡,讓模型在更短且一致的推理路徑上產出結果。研究聚焦於用更少的代幣達到可比的輸出品質,並針對代幣消耗、延遲與成本提出實證結果。
深度分析
法國創企Mistral在巴黎AINOW峰會揭露一系列工業化擴張與資料中心計畫。公司將大型語言模型與physics AI結合,利用數據驅動模組快速預測物理行為以加速設計迭代。並宣布Vibe代理平台與在地推論機房,提供企業選擇本地或託管部署以強化資料主權。此策略可能重塑企業部署選擇與供應鏈分布。
深度分析
Apple發布AFM基礎語言模型,包含可在裝置執行的約3億參數等級型與供PrivateCloudCompute的伺服器模型。模型採Transformer解碼器、RoPE長序列、GQA與SwiGLU等效能優化,並以LoRA適配器實現任務專化。強調隱私優先與責任AI,調整本機效能與私有雲推論的權衡。
深度分析
研究關注Markov邏輯網路在域大小趨近無限時的行為,採用三類量化約束為空的實例分析,包括一元關係的「顏色」分佈、以減少三角形或k-團為傾向的圖模型,以及抑制高階度頂點的模型;結果指出soft constraint的類型會決定隨機結構的極限分佈,且MLN與lifted Bayesian networks在漸近表現上存在不可比性,權重是否影響極限取決於具體約束與量測方式。