Das US-Unternehmen OpenAI bringt drei Audiomodelle der GPT-Realtime-Serie auf den Markt und integriert erstmals die GPT-5-Inferenzfähigkeit in die Sprachinteraktion_Weltnachrichten

Das US-Unternehmen OpenAI bringt drei Audiomodelle der GPT-Realtime-Serie auf den Markt und integriert erstmals die GPT-5-Inferenzfähigkeit in die Sprachinteraktion

2026-05-13 13:48

Merken

de.wedoany.com-Bericht: Das US-Unternehmen OpenAI hat offiziell drei Echtzeit-Audiomodelle der GPT-Realtime-Serie vorgestellt, die als GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper bezeichnet werden und alle über die Realtime API für Entwickler verfügbar sind. Diese drei Modelle integrieren Inferenz-, Übersetzungs- und Transkriptionsfähigkeiten in ein und dieselbe API und erweitern die Sprachinteraktion von einfachen Frage-Antwort-Runden direkt auf produktionsreife Agenten mit Werkzeugaufruf und Aufgabenausführungsfähigkeit.

GPT-Realtime-2 ist das Kernmodell der Serie und das erste Modell von OpenAI, das die GPT-5-Inferenzfähigkeit in die Sprachinteraktion bringt. Es ist für Echtzeit-Sprachagenten konzipiert und kann während des Dialogs gleichzeitig komplexe Schlussfolgerungen ziehen, externe Werkzeuge aufrufen, Unterbrechungen und Korrekturen verarbeiten und den Kontext in langen Sitzungen aufrechterhalten. Das Kontextfenster wurde von 32K der Vorgängergeneration direkt auf 128K erweitert, was ausreicht, um komplexe Aufgabendialoge mit mehreren Runden von über einer halben Stunde zu unterstützen. Das Modell bietet fünf einstellbare Inferenzstufen – von minimal bis maximal –, sodass Entwickler je nach Aufgabenkomplexität zwischen Antwortgeschwindigkeit und Inferenztiefe abwägen können. Parallele Werkzeugaufrufe ermöglichen den gleichzeitigen Zugriff auf mehrere Backend-Systeme wie Kalender, Karten und CRM, wobei dem Benutzer der Fortschritt gemeldet und gleichzeitig Aktionen ausgeführt werden. Durch den „Preambles“-Mechanismus werden auf natürliche Weise Übergangsphrasen wie „Lassen Sie mich das kurz überprüfen“ eingefügt, wodurch die Interaktionsqualität einem echten Gespräch näherkommt.

GPT-Realtime-Translate ist eine Streaming-Simultanübersetzungs-Engine. Sie unterstützt über 70 Eingabesprachen und ist auf 13 Ausgabesprachen beschränkt. Der Übersetzungsrhythmus ist mit dem Sprecher synchronisiert, die Ausgabe beginnt, ohne das Ende eines vollständigen Satzes abzuwarten, und die Latenz wird auf ein extrem niedriges Niveau gedrückt. GPT-Realtime-Whisper bietet eine latenzarme Streaming-Transkription – sobald eine Person zu sprechen beginnt, wird der Text synchron generiert. Es eignet sich für Echtzeit-Untertitel, Besprechungsprotokolle und Workflow-Updates und eliminiert die Wartezeit herkömmlicher Sprache-zu-Text-Dienste.

Die Abrechnungsmethoden der drei Modelle sind klar voneinander getrennt. GPT-Realtime-2 wird nach Token abgerechnet: Audioeingabe kostet 32 US-Dollar pro Million Token, Ausgabe 64 US-Dollar und zwischengespeicherte Eingabe nur 0,4 US-Dollar. GPT-Realtime-Translate kostet 0,034 US-Dollar pro Minute, GPT-Realtime-Whisper 0,017 US-Dollar pro Minute – beide werden nach Nutzungsdauer abgerechnet. Diese Struktur drückt die Kosten pro Minute für Simultanübersetzung auf ein extrem niedriges Niveau, sodass sich die wirtschaftliche Rechnung für großflächige Unternehmenseinsätze nun rechnet.

Die US-Immobilieninformationsplattform Zillow, der Online-Reisedienstleister Priceline und die Deutsche Telekom haben bereits mit Integrationstests begonnen. Zillow hat mit GPT-Realtime-2 einen Sprachassistenten entwickelt, der Wohnbedingungen versteht und Besichtigungstermine vereinbart. In internen adversarischen Tests stieg die Erfolgsquote bei Telefonaufgaben von 69 % auf 95 %, und auch die Einhaltung von Antidiskriminierungsvorschriften erwies sich als stabiler. Priceline hat den Sprachagenten in langkettige Dienstleistungen wie Flugabfragen, Hotelbuchungen und Reiseplanänderungen integriert, mit dem Ziel, die Sprachinteraktion von „Fragen und Antworten“ auf „Erledigen“ zu beschleunigen. Die Deutsche Telekom hat die Validierung in Szenarien wie komplexer Tarifberatung, Störungsbehebung und Rechnungserklärung abgeschlossen; die Einsatzfähigkeit in der Callcenter-Umgebung wurde erfolgreich nachgewiesen.

Auch die Benchmark-Ergebnisse steigen. GPT-Realtime-2 liegt im Big Bench Audio-Test für Audiointelligenz um 15,2 Prozentpunkte über dem Vorgängermodell und im Audio MultiChallenge-Test für das Befolgen von Anweisungen in mehrstufigen Dialogen um 13,8 Prozentpunkte höher.

Betrachtet man den Iterationsrhythmus, so ist die Entwicklungslinie von OpenAI im Sprachbereich klar erkennbar. 2024 wurde zunächst die latenzarme Fähigkeit des erweiterten Sprachmodus von ChatGPT für Entwickler freigegeben, im August 2025 folgte die Veröffentlichung des ersten produktionsreifen Gpt-Realtime-Modells, im Februar 2026 ging Gpt-Realtime-1.5 online, und nun führt GPT-Realtime-2 diese Produktlinie offiziell von einer erlebnisorientierten Funktion in die Basisversionsreihe der unternehmensfähigen API über.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.