代理型工作負載 - Agents Report

TokenSpeed

在代理型人工智慧興起下，推論效率成為部署瓶頸。LightSeek釋出TokenSpeed，採用編譯器驅動的SPMD並以C++有限狀態機做排程，搭配可插拔的加速核與SMG低開銷入口。對比TensorRT-LLM，在NVIDIA B200上呈現更低延遲與更高吞吐。