OpenAI lanserar tre nya API-modeller för realtidsljud, inklusive GPT-Realtime-2

OpenAI:s GPT-Realtime-2 ger resonemang i GPT-5-klass till levande röstagenter och lanseras tillsammans med ytterligare två ljudmodeller i realtid via OpenAI API.

OpenAI har lanserat GPT-Realtime-2, GPT-Realtime-Translate och GPT-Realtime-Whisper genom sitt Realtime API, som nu är allmänt tillgängligt för produktionsröstagenter.

Darryl Linington (översatt av DeepL / Ninh Duy), Publicerad 05/09/2026 🇺🇸 🇩🇪 ...

AI Business Software Laptop / Notebook Desktop Android Apple

OpenAI har lanserat tre nya realtidsljudmodeller via sitt API, vilket driver röst-AI från grundläggande fråga och svar-interaktioner mot agenter som kan lyssna, resonera, översätta och agera inom en enda live-konversation. Utgåvan markerar också Realtime API: s utgång från beta, vilket gör det allmänt tillgängligt för produktionsanvändning för första gången.

I centrum för releasen står GPT-Realtime-2, OpenAI:s första röstmodell som bygger på resonemang i GPT-5-klass. Till skillnad från den stegvisa arkitektur som de flesta röstsystem förlitar sig på, bearbetar GPT-Realtime-2 ljud i en kontinuerlig ström, vilket gör det möjligt att tolka tal när det händer och svara utan det gap som orsakas av separata transkriptions- och syntessteg. Modellen stöder ett 128K token-kontextfönster, upp från 32K i den tidigare versionen, vilket gör längre röstsessioner och komplexa flöden i flera steg praktiska utan externa minnesbyggnadsställningar.

Vad GPT-Realtime-2 kan göra

Modellen är byggd specifikt för det som OpenAI kallar "agentiskt beteende" under röstsamtal. Preambles låter den säga "Låt mig kolla det" eller "Ett ögonblick" medan den utför verktygsanrop, så att användarna inte lämnas med död luft. Parallella verktygsanrop gör det möjligt att köra flera backend-förfrågningar samtidigt och berätta vilken som är på väg. Starkare återställningsbeteende innebär att den hanterar fel högt i stället för att frysa mitt i en konversation. Tonjustering gör att den kan växla mellan stilar baserat på sammanhang: mer uppmätt för supportsamtal och mer optimistisk för bekräftelser.

GPT-Realtime-2 får 15,2 % högre poäng än GPT-Realtime-1.5 på Big Bench Audio, OpenAI:s riktmärke för ljudresonemang, och 13,8 % högre poäng på Audio Multichallenger för att följa instruktioner. I verkliga tester rapporterar Zillow en 26-punkters ökning av andelen lyckade samtal på sitt svåraste adversarial benchmark, från 69% till 95% efter snabb optimering på GPT-Realtime-2. Modellen kostar 32 dollar per miljon ljudinmatningstoken och 64 dollar per miljon ljudutmatningstoken, med 0,40 dollar per miljon cachade inmatningstoken.

GPT-Realtime-Translate och GPT-Realtime-Whisper

Den andra modellen, GPT-Realtime-Translateär ett dedikerat system för översättning av tal i realtid. Det bearbetar talad inmatning kontinuerligt och matar ut översättningar i realtid utan att kräva att talarna pausar eller avslutar hela meningar. Modellen stöder mer än 70 inmatningsspråk och 13 utmatningsspråk och riktar sig till kundsupport, utbildning, live-evenemang och gränsöverskridande försäljningsmiljöer. BolnaAI, ett röst-AI-bolag som bygger för indiska språkmarknader, rapporterar 12,5% lägre ordfelsprocent på hindi, tamil och telugu jämfört med den tidigare översättningsmetoden. GPT-Realtime-Translate kostar 0,034 USD per minut för ljudbearbetning.

GPT-Realtime-Whisper är den tredje modellen, som utökar OpenAI:s allmänt vedertagna Whisper-teknik för taligenkänning till ett streaming-system. Medan den ursprungliga Whisper byggdes för transkribering efter inspelning, producerar den här versionen live-textning när talet talas. Användningsområdena är bland annat direktsända möten, dokumentation i rättssalar, transkribering på nyhetsredaktioner och tillgänglighetsverktyg för hörselskadade användare. Det är den mest prisvärda av de tre modellerna med ett pris på 0,017 USD per minut. Alla tre modellerna finns nu tillgängliga via OpenAI API och utvecklarnas playground.

Lanseringen lägger också till MCP-serverstöd, bildinmatningsfunktioner och SIP-telefonsamtalsintegration till Realtime API, vilket breddar utbudet av företagstelefoni och agentiska arbetsflöden som utvecklare kan bygga utan att lämna API.

Utrymmet för AI-verktyg har också lockat angripare som vill utnyttja intresset för nya produkter. Notebookcheck rapporterade igår om en falsk Claude AI webbplats som drev Beagle Windows-bakdörren genom Google-sponsrade sökresultat med hjälp av en trojaniserad Claude-Pro Relay-installatör.