深度分析
頻譜探針電路:用三步法於預訓練檢查點識別 Transformer 注意力頭電路
本研究提出一套三步法:以每頭注意力輸出參與比(PR)積分抓取頻譜信號,透過六類任務模式篩選形成候選電路,最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現,誘導電路通常由3–6個頭構成,且可辨識的專精頭比例約17–19%不隨規模大幅變動。
深度分析
本研究提出一套三步法:以每頭注意力輸出參與比(PR)積分抓取頻譜信號,透過六類任務模式篩選形成候選電路,最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現,誘導電路通常由3–6個頭構成,且可辨識的專精頭比例約17–19%不隨規模大幅變動。
深度分析
本研究針對行動群眾外包環境下,來自多位行動使用者的偏好回饋可能被策略性地虛報,導致以人類回饋微調大規模語言模型(LLM)時效果退化。作者以動態貝式博弈建模平台與多位策略性工人之間的線上互動,設計一種能根據回饋準確度動態調整權重的線上加權彙整機制,並證明該機制可誘導誠實回饋且將總體後悔(regret)從線性降為次線性 O(√T)。
深度分析
GoogleI/O後,SundarPichai描述Google如何以Gemini與代理平台,把共用模型與基礎建設串接到搜尋、YouTube與產品線上;此舉讓搜尋能直接執行任務而非僅回傳連結,可能進一步侵蝕網站流量並重塑創作與商業模式。帶來政策與營收分配討論。
深度分析
研究提出Iterative Refinement Neural Operator(IRNO),將預訓練的神經算子作為粗解,並以共享權重的修正子在推論時做固定點迭代,將預測拆成初始化與殘差修正兩部分。理論上在局部條件下可被視為收斂的契約映射,並能穩定外推超過訓練迭代次數。
深度分析
本研究針對 decoder-only transformer 的中間隱藏態釋出(例如做向量檢索或快取)評估高斯雜訊機制的隱私-效用折衷。
深度分析
擴散模型採樣昂貴,Kuramoto方位擴散以局部相位耦合取代線性漂移,保留更多局部結構並提升步數效率。SA-Kura將sin(θj−θi)重寫為鄰居累加後再與中心相位乘減,移除PE內三角單元並以流水陣列執行。實驗顯示在45nm綜合下,相較SoC軟體延遲與能耗分別降約193×與69.4×,對Jetson Orin Nano則更快6.57×且每像素能耗約46×更低。
深度分析
面對 VLA 模型難以在邊緣裝置部署的記憶體瓶頸,ActQuant 提出行為導向混合精度 PTQ:先依矩陣對動作貢獻分配位元,再在矩陣內以動作敏感度優化分塊尺度,並透過 OmniModel.cpp 轉出低位元本地推論。實驗顯示可在低於 3-bit 保持高成功率並顯著壓縮模型。
深度分析
近年一步式文字到影像合成走向實時化但偏離人類偏好。Didr將RLHF的報酬傾斜分佈沿擴散軌跡傳播,導出跨噪音層的Diffused Reward Score並以可微短步去噪的Diffused Reward Proxy估算。實驗顯示在一階SDXL與大尺度DiT骨幹上,Didr在偏好與FID的權衡上領先既有一階方法。
深度分析
本文基於大規模匿名資料,檢視 M365 Copilot Chat 在企業場域的實際使用情形。研究以約 5.5 百萬次會話為樣本,結合自下而上的使用者意圖分類與 O*NET 工作活動標註,揭示寫作與內容精修為主的使用型態,同時資訊檢索、分析決策與系統診斷等任務亦占重要比重。
深度分析
虛擬人像常被後製導致水印失效。本研究建立 RAW 基準並提出 WALT,將二進位訊息編碼為 UV 紋理,透過 3D 臉部重建把水印綁定於臉部幾何,提升對背景移除與放大裁切的抗性。實驗顯示 WALT 在多種 avatar 攻擊下保持高還原率,對應真實部署流程有實務意義。
深度分析
EchoDistill提出一種對齊式的「從噪到淨」自蒸餾訓練框架,利用凍結的乾淨音訊教師為帶噪學生提供語義參考,並在訓練時讓學生在噪聲條件下展開多條候選生成軌跡。透過群體相對策略優化(GRPO)結合逐詞級的令牌對齊獎勵與音訊感知的獎勵塑形,EchoDistill鼓勵模型在雜訊下依據真實聲學證據做出推理,而非退回語言先驗。
深度分析
本文以lm_head權重做奇異值分解(SVD),提出一種無需推論的靜態檢視法。只用五行PyTorch就能從左奇異向量抽出詞彙群集,揭露訓練語料偏向與可疑內容。多模型實驗顯示某些倫理敏感子空間在基礎與指令微調後仍存在,建議將該分析納入預發布安全稽核。