CUDA - Agents Report | 代理人報告

Rust

openinfer：純 Rust 與 CUDA 打造高效能 LLM 推論引擎

隨著大型語言模型需求激增，openinfer以純Rust與CUDA實作LLM推論引擎，拋棄PyTorch與框架跑時，支援Qwen3至兆參數Kimi‑K2，展現與主流開源推論框架相當的效能與可擴展性。完全使用Rust編寫，所有CUDA kernel與排程自行手寫，提供企業級部署的可行方案。

深度分析

Nvidia 發表 RTX Spark 超級晶片，推動桌面 AI 計算與圖形整合

Nvidia於台北電腦展推出RTX Spark超級晶片，具1petaflop計算力，支援AI代理與本地大模型。多家PC代工將於秋季推出搭載此晶片的Windows電腦，並內建與微軟共同開發的安全沙盒。此舉預示AIPC市場可能快速成長，同時挑戰傳統GPU為主的AI生態。

RTP-LLM

RTP-LLM：面向生產環境的高效能 LLM 推理引擎（CUDA 優化與量化實作）

報導聚焦一款來自企業團隊的開源推理引擎，背景為大型語言模型在生產場景需求快速成長。核心透過圖形運算處理器加速、分頁注意力與高效解碼等演算法優化，並結合權重整數量化、KV快取量化與預填與解碼分離的系統設計。結果在降低推理延遲與提升生產環境吞吐及部署穩定性方面有明顯助益。

深度分析

CUDA 生態系統解析：技術優勢、VUDA 跨庫共享與市場競爭

Nvidia透過CUDA建立AI軟體護城河，利用平行化讓GPU效能大幅提升；同時AMD、Intel的ROCm與OneAPI仍受限於生態鎖定。此格局影響未來AI開發成本與生態多樣性。在深度學習訓練與資料生成階段，CUDA的並行運算與專屬庫讓Nvidia GPU效率領先，同時VUDA的跨庫共享技術展示出新一代資源整合可能。

深度分析

VUDA：以通道重導向與頁表嫁接實現 CUDA 與 Vulkan 在同一 GPU 的空間共排程

具身人工智慧模擬同時依賴 CUDA 物理運算與 Vulkan 光線渲染，但兩者在 GPU 軟體堆疊上被時間片隔離，導致資源階段性閒置。

深度分析

在 CUDA 上部署 Bonsai‑1.7B（1‑bit Q1_0_g128）：從下載到效能測試完整教學

本教學示範在GoogleColab內安裝PrismML的llama.cppCUDA二進位檔，下載Bonsai-1.7BGGUF模型，說明Q1_0_g1281-bit量化原理、記憶體縮減與效能基準，並展示聊天、JSON、程式碼產生及OpenAI兼容伺服器等實作流程。