Triton kernel - Agents Report

深度分析

在 Intel GPU 上優化 Triton kernel 的 Xe-Forge：多階段 CoVeR 驗證與自動調參流程

面對深度學習模型移植到新加速器時，重複低階優化造成部署瓶頸。Xe-Forge以多階段LLM驅動的CoVeR代理，對原有Triton kernel執行結構改寫、融合、記憶體與Intel特定調校，並以硬體回饋驗證及知識庫約束維持架構正確性。實驗在KernelBench與Flash Attention上顯示整體性能有顯著提升，且可降低搬移人工成本且穩定可靠。