OpenAI 推出 GPT‑Realtime‑2、Realtime‑Translate 與 Realtime‑Whisper 即時語音能力
OpenAI在其API推出多項即時語音智慧功能:GPT‑Realtime‑2以GPT‑5級推理強化語音對話;GPT‑Realtime‑Translate提供同步翻譯,理解七十餘種輸入並輸出十三種語言;GPT‑Realtime‑Whisper支援即時語音轉文字,並內建防護機制阻止濫用。
OpenAI 擴大 API 即時語音能力
OpenAI 宣布其 API 現在加入多項即時語音智慧功能,主打能說、能聽、能翻、能轉寫的會話型體驗。公司發表的三款新服務包括 GPT‑Realtime‑2、GPT‑Realtime‑Translate 與 GPT‑Realtime‑Whisper。
GPT‑Realtime‑2 是新版語音模型,訴求更逼真的語音模擬與對話推理能力;相較於先前版本,OpenAI 稱其採用 GPT‑5 級的推理架構,以處理更複雜的使用者請求。GPT‑Realtime‑Translate 則提供同步翻譯服務,支援超過 70 種輸入語言和 13 種輸出語言,設計上能在對話節奏中跟上使用者的語速與轉換需求。
在轉寫方面,GPT‑Realtime‑Whisper 提供即時語音轉文字,能將通話或會議過程中的語音以互動形式捕捉。OpenAI 表示,整體目標是把即時音訊從簡單的呼叫回應,推進到能「聽、推理、翻譯、轉寫並在對話展開時採取行動」的語音介面。
企業應用面上,這些更新被視為擴充客服、教育、媒體活動與創作者平台等應用的工具。同時,OpenAI 指出已在系統內建多項防護機制,盡量阻止新功能被用於散播垃圾訊息、詐騙或其他濫用情形,並在偵測到違規對話時中止相關互動。
延伸閱讀
- OpenAI 推出進階帳號安全 防止 ChatGPT 與 Codex 被盜用
- AWS Bedrock 現已提供 OpenAI 最新模型、Codex 與 Managed Agents
- Meta押注AWS Graviton:數百萬顆ARM CPU支援代理人時代的AI運算
原始來源:TechCrunch
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。