apple-silicon oMLX:針對 Apple Silicon 的本地 LLM 推理與分層 SSD 快取管理 一款為 Apple Silicon 優化的本地 LLM 推理伺服器,由 macOS 選單列管理模型與資源。採用連續批次處理與熱記憶體加 SSD 冷快取的分層 KV 儲存策略,使上下文在請求間持久可復用。主要影響是提升本地模型在開發與工具整合時的實用性,降低對雲端的依賴。