LoRA微調

深度分析

專家領域的知識本質上是樹狀結構，但傳統 Transformer 的歐氏幾何無法有效處理深層的父子關係。HySAT 提出只在損失層使用雙曲幾何，避免因曲率耦合導致的訓練崩潰；在六個專家模型、約 31.7 萬步訓練中達成零 NaN。這項技術讓專家級 AI 部署更穩定。

深度分析

大型語言模型在電商生產環境需在模型判斷力與延遲SLA間取得平衡。本文把訓練好的Nemotron商務小型語言模型與一種無需再訓練的草稿模型推測解碼策略EAGLE3結合，透過vLLM在同一套H100硬體上實驗，重點衡量吞吐、延遲與品質保存。