深度分析 在 Intel GPU 上優化 Triton kernel 的 Xe-Forge:多階段 CoVeR 驗證與自動調參流程 面對深度學習模型移植到新加速器時,重複低階優化造成部署瓶頸。Xe-Forge以多階段LLM驅動的CoVeR代理,對原有Triton kernel執行結構改寫、融合、記憶體與Intel特定調校,並以硬體回饋驗證及知識庫約束維持架構正確性。實驗在KernelBench與Flash Attention上顯示整體性能有顯著提升,且可降低搬移人工成本且穩定可靠。