深度分析 在 Jetson Orin Nano Super 上部署 Gemma 4 VLA:以 llama.cpp 與本地 STT/TTS 實現語音→視覺→回應流程 NVIDIA 工程師示範如何在 Jetson Orin Nano Super(8GB)上,本地運行 Gemma 4 的視覺—語言—行動(VLA)互動流程。系統以 Parakeet 做語音辨識、Gemma 4 判斷是否需要開啟攝影機、再由 Kokoro TTS 回放語音,整個流程無關鍵字觸發、以模型決策為主。