OpenAI 推出 GPT-Realtime-2、Realtime-Translate 與 Whisper,將 GPT-5 級推理帶入即時語音編排
語音代理長期因上下文容量限制而帶來高成本與編排負擔,企業常需在系統加入會話重置、狀態壓縮與重建。OpenAI 推出三款即時語音模型:GPT-Realtime-2、Realtime-Translate 與 Realtime-Whisper,將對話推理、翻譯與轉寫拆成專責元件。
OpenAI 將 GPT-5 級推理帶入即時語音編排
語音代理長期昂貴且難以編排,關鍵並非模型無法對話,而是上下文上限迫使企業在每次部署加入會話重置、狀態壓縮與重建等層,造成運營負擔。OpenAI 推出三款即時語音模型,將對話推理、翻譯與轉寫分拆為專責元件,以降低整體編排成本。
這三款模型分別為 GPT-Realtime-2、Realtime-Translate 與 Realtime-Whisper。GPT-Realtime-2 被描述為具「GPT-5 級推理」,用以處理較難的請求並維持自然對話流;Realtime-Translate 可以理解超過 70 種語言,並即時翻譯成 13 種目標語言;Realtime-Whisper 則負責語音到文字的轉寫。
重要的是,這些功能不再被塞在單一語音堆疊裡。企業可以把不同任務指派給對應模型,不必把所有工作都通過一個一體化語音系統,並在 128K 代幣的上下文窗口內管理狀態與路由策略。此做法與 Mistral 的 Voxtral 類似,都是把轉寫與目標用例分離,讓企業在語音編排與成本取捨上有更多彈性。
延伸閱讀
- OpenAI 推出 GPT‑Realtime‑2、Realtime‑Translate 與 Realtime‑Whisper 即時語音能力
- Salesforce 推出 Agentforce Operations:企業 AI 代理人決定性工作流程控制平面
- OpenAI 推出進階帳號安全 防止 ChatGPT 與 Codex 被盜用
原始來源:VentureBeat
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。