深度分析 在 CUDA 上部署 Bonsai‑1.7B(1‑bit Q1_0_g128):從下載到效能測試完整教學 本教學示範在GoogleColab內安裝PrismML的llama.cppCUDA二進位檔,下載Bonsai-1.7BGGUF模型,說明Q1_0_g1281-bit量化原理、記憶體縮減與效能基準,並展示聊天、JSON、程式碼產生及OpenAI兼容伺服器等實作流程。