深度分析 Llama-3.1 量化實證比較:W8A8-FP、W8A8-INT 與 W4A16-INT 的準確度與效能評估 研究比較W8A8-FP、W8A8-INT與W4A16-INT三種量化格式在學術與實務基準的準確度與推論效能;採用自動化評測、文本相似度分析與vLLM在多款GPU的延遲量測;結果發現W8A8-FP近乎無損,W8A8-INT衰減輕微,W4A16在同步部署成本效益最佳。