深度分析
KAME 架構詳解:Sakana AI 以同步 S2S 與 LLM 實現低延遲即時語音對話
為解決即時語音助理回應快但知識貧乏、以及串接大型語言模型造成的高延遲兩難,Sakana AI 推出 KAME 架構,透過同步語音生成與即時注入 LLM oracle,使回應延遲接近零且答案品質提升至 MT‑Bench 超過 6 分,接近級聯系統的表現且保持約 0.1 秒的回應延遲。
深度分析
為解決即時語音助理回應快但知識貧乏、以及串接大型語言模型造成的高延遲兩難,Sakana AI 推出 KAME 架構,透過同步語音生成與即時注入 LLM oracle,使回應延遲接近零且答案品質提升至 MT‑Bench 超過 6 分,接近級聯系統的表現且保持約 0.1 秒的回應延遲。
深度分析
這篇研究提出首個公開、可重現的印地語全雙工(full‑duplex)語音會話系統,稱為 Human‑1。