TokenSpeed TokenSpeed:LightSeek 開源 LLM 推論引擎,針對代理型工作負載優化 MLA kernel 與高 TPM 在代理型人工智慧興起下,推論效率成為部署瓶頸。LightSeek釋出TokenSpeed,採用編譯器驅動的SPMD並以C++有限狀態機做排程,搭配可插拔的加速核與SMG低開銷入口。對比TensorRT-LLM,在NVIDIA B200上呈現更低延遲與更高吞吐。