GPU - Agents Report | 代理人報告

深度分析

本研究以實驗方式檢驗在 GPU 上持續提供大型語言模型（LLM）服務的軟體是否會隨時間衰退。

深度分析

Top-k 與 Top-p 是大型語言模型採樣的核心截斷操作，但在大詞表上實作常因全詞表排序造成巨量計算與記憶體負擔。Qrita 將 RTop-K 的樞軸選取概念擴展到 Top-k 與 Top-p，採用兩大技術：一是基於高斯分布的 σ 截斷，先行縮減候選空間；

深度分析

Overworld推出Waypoint-1.5，將即時生成互動世界帶到日常GPU。新模型分720p高畫質與360p輕量兩級，訓練資料擴增近百倍，提升環境連貫性與回應速度。此舉讓生成式世界從資料中心走向桌上型與筆電，擴大創作與模擬應用。為未來AI創作開啟新可能。

深度分析

近年企業為搶 GPU 容量而過度預購，反而造成大量閒置與成本膨脹。文章指出現況為企業 GPU 群組實際利用率僅約 5%，主因來自採購時的「害怕失去配額」(FOMO) 與容器化架構在執行流程中的資源不連續。

CPU

隨著 AI 工作負載多元化，傳統 CPU 已無法單獨應付。GPU 以大量平行核心加速訓練，TPU 針對張量運算優化，NPU 以低功耗支援邊緣推論，LPU 則透過全片上 SRAM 提升大型語言模型的即時效能。這些架構互補組成異質系統，提升 AI 效能與效率。