深度分析
Nvidia 發表 RTX Spark 超級晶片,推動桌面 AI 計算與圖形整合
Nvidia於台北電腦展推出RTX Spark超級晶片,具1petaflop計算力,支援AI代理與本地大模型。多家PC代工將於秋季推出搭載此晶片的Windows電腦,並內建與微軟共同開發的安全沙盒。此舉預示AIPC市場可能快速成長,同時挑戰傳統GPU為主的AI生態。
深度分析
Nvidia於台北電腦展推出RTX Spark超級晶片,具1petaflop計算力,支援AI代理與本地大模型。多家PC代工將於秋季推出搭載此晶片的Windows電腦,並內建與微軟共同開發的安全沙盒。此舉預示AIPC市場可能快速成長,同時挑戰傳統GPU為主的AI生態。
深度分析
PaddleOCR3.5讓OCR與文件解析可直接使用HuggingFaceTransformers後端。只要把engine設為transformers,即可在PyTorch生態中呼叫PP‑OCRv5、PaddleOCR‑VL1.5等模型。此舉降低文件到LLM流程的整合摩擦,提升開發效率。
深度分析
隨著AI代理快速發展,術語混用成為新手障礙。本文釐清模型、Scaffold、Harness、Agent等概念,說明它們在訓練與推論中的角色與差異,並指出統一詞彙有助於跨框架合作與降低開發成本,此術語統整將促進工具生態互通,並降低因實作差異產生的維護負擔。
深度分析
NVIDIA 在 2026 年推出首個開放式全能物理 AI 模型 Cosmos 3,採用 Mixture‑of‑Transformers 架構,支援文字、影像、影片與動作多模態,提供 Nano 與 Super 兩種規模。模型可直接生成符合物理規則的合成影片,並搭配多套合成資料集,助於機器人與自駕等應用。此舉結合先前 Orin 衛星在軌運算實驗,顯示全域模型在即時資料處理與太空計算的潛力。
深度分析
JetBrains 於 2026 年 6 月發表 Mellum2,這是一款 12 億參數的 Mixture-of-Experts(MoE)模型,專為文字與程式碼工作負載設計。模型在每個 token 只激活約 2.5 億參數,實現超過同規模開源模型兩倍的推理速度,適用於路由、RAG、子代理與私有部署等高頻 AI 任務。
深度分析
Meta推出AI客服聊天機器人被駭客利用,指令更換目標帳號電郵並重設密碼,駭客甚至使用VPN偽裝位置攻擊單字母或單詞帳號,導致名人、官方與安全研究員帳號被盜。該漏洞於2026年6月被發現,與奧巴馬白宮帳號被入侵時間相近。Meta已緊急修補漏洞並加強受影響帳號安全。
深度分析
Google於I/O 2026推出Gemini Spark AI 代理人,可在背景自動完成多步驟任務,如撰寫郵件與建立行事曆。測試顯示其能自行搜尋資料並產出草稿,但仍需使用者逐項驗證。高達每月百美元的訂閱費與資料隱私疑慮,使其實用性受限。此外,若未開啟個人智慧功能,Spark的表現會大幅退化。
深度分析
研究指出,自回歸影像生成在重建與生成間有落差,提出僅用AR損失訓練的前置代碼Prologue,將生成代碼前置於視覺代碼,成功降低gFID逾四成且保留重建品質,展示以獨立生成表示提升AR效能的新方向。在ImageNet 256×256測試中,Prologue‑Base將gFID從21.01降至10.75。
深度分析
本研究聚焦於車載多變量時間序列的協調異常,提出 AxonAD 以注意力查詢的短期可預測性作為偵測依據,結合重建誤差與尾部查詢偏差得分。查詢不匹配得分能捕捉跨通道協調斷裂,即使各通道幅度正常,也提供額外訊號;相較於 LSTMAD、SISVAE 等模型,AxonAD 在 AUC‑PR、Event‑F1 與 Range‑F1 等閾值自由指標上均領先。
深度分析
研究聚焦於如何將真實 GitHub Pull Request 轉換為可驗證的搜尋/取代編輯訊號,提出 Clean-PR 中介訓練流程,並以 Search/Replace 區塊取代傳統 Diff。實驗顯示,於 SWE‑bench Lite 與 Verified 上分別提升 13.6% 與 12.3%,證明模型可在無代理架構下內化倉庫編輯能力。
深度分析
本研究針對在一般李群上出現的未知資料變換反轉問題,提出轉換反轉能量擴散(TIED)方法。透過在李代數上進行的擴散抽樣,保持所有更新於流形上,並以能量函數建模變換後驗後分布。實驗以影像同倫與偏微分方程對稱性為測試場景,證明 TIED 能在測試時將變換後的輸入恢復至訓練分布,提升預訓練網路的準確度與穩定性,超越傳統正規化與抽樣基線。
深度分析
研究提出MaskCaptioner,利用先進視覺語言模型自動產生影片中每個物件的遮罩與文字敘述,並以LVISCap與LV‑VISCap兩套合成資料集進行端到端訓練,於VidSTG、VLN與BenSMOT三大基準創下最新成績,顯示合成標註可提升密集影片敘述效能。