Das US-Unternehmen OpenAI bringt drei Audiomodelle der GPT-Realtime-Serie auf den Markt und integriert erstmals die GPT-5-Inferenzfähigkeit in die Sprachinteraktion
2026-05-13 13:48
Merken

de.wedoany.com-Bericht: Das US-Unternehmen OpenAI hat offiziell drei Echtzeit-Audiomodelle der GPT-Realtime-Serie vorgestellt, die als GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper bezeichnet werden und alle über die Realtime API für Entwickler verfügbar sind. Diese drei Modelle integrieren Inferenz-, Übersetzungs- und Transkriptionsfähigkeiten in ein und dieselbe API und erweitern die Sprachinteraktion von einfachen Frage-Antwort-Runden direkt auf produktionsreife Agenten mit Werkzeugaufruf und Aufgabenausführungsfähigkeit.

GPT-Realtime-2 ist das Kernmodell der Serie und das erste Modell von OpenAI, das die GPT-5-Inferenzfähigkeit in die Sprachinteraktion bringt. Es ist für Echtzeit-Sprachagenten konzipiert und kann während des Dialogs gleichzeitig komplexe Schlussfolgerungen ziehen, externe Werkzeuge aufrufen, Unterbrechungen und Korrekturen verarbeiten und den Kontext in langen Sitzungen aufrechterhalten. Das Kontextfenster wurde von 32K der Vorgängergeneration direkt auf 128K erweitert, was ausreicht, um komplexe Aufgabendialoge mit mehreren Runden von über einer halben Stunde zu unterstützen. Das Modell bietet fünf einstellbare Inferenzstufen – von minimal bis maximal –, sodass Entwickler je nach Aufgabenkomplexität zwischen Antwortgeschwindigkeit und Inferenztiefe abwägen können. Parallele Werkzeugaufrufe ermöglichen den gleichzeitigen Zugriff auf mehrere Backend-Systeme wie Kalender, Karten und CRM, wobei dem Benutzer der Fortschritt gemeldet und gleichzeitig Aktionen ausgeführt werden. Durch den „Preambles“-Mechanismus werden auf natürliche Weise Übergangsphrasen wie „Lassen Sie mich das kurz überprüfen“ eingefügt, wodurch die Interaktionsqualität einem echten Gespräch näherkommt.

GPT-Realtime-Translate ist eine Streaming-Simultanübersetzungs-Engine. Sie unterstützt über 70 Eingabesprachen und ist auf 13 Ausgabesprachen beschränkt. Der Übersetzungsrhythmus ist mit dem Sprecher synchronisiert, die Ausgabe beginnt, ohne das Ende eines vollständigen Satzes abzuwarten, und die Latenz wird auf ein extrem niedriges Niveau gedrückt. GPT-Realtime-Whisper bietet eine latenzarme Streaming-Transkription – sobald eine Person zu sprechen beginnt, wird der Text synchron generiert. Es eignet sich für Echtzeit-Untertitel, Besprechungsprotokolle und Workflow-Updates und eliminiert die Wartezeit herkömmlicher Sprache-zu-Text-Dienste.

Die Abrechnungsmethoden der drei Modelle sind klar voneinander getrennt. GPT-Realtime-2 wird nach Token abgerechnet: Audioeingabe kostet 32 US-Dollar pro Million Token, Ausgabe 64 US-Dollar und zwischengespeicherte Eingabe nur 0,4 US-Dollar. GPT-Realtime-Translate kostet 0,034 US-Dollar pro Minute, GPT-Realtime-Whisper 0,017 US-Dollar pro Minute – beide werden nach Nutzungsdauer abgerechnet. Diese Struktur drückt die Kosten pro Minute für Simultanübersetzung auf ein extrem niedriges Niveau, sodass sich die wirtschaftliche Rechnung für großflächige Unternehmenseinsätze nun rechnet.

Die US-Immobilieninformationsplattform Zillow, der Online-Reisedienstleister Priceline und die Deutsche Telekom haben bereits mit Integrationstests begonnen. Zillow hat mit GPT-Realtime-2 einen Sprachassistenten entwickelt, der Wohnbedingungen versteht und Besichtigungstermine vereinbart. In internen adversarischen Tests stieg die Erfolgsquote bei Telefonaufgaben von 69 % auf 95 %, und auch die Einhaltung von Antidiskriminierungsvorschriften erwies sich als stabiler. Priceline hat den Sprachagenten in langkettige Dienstleistungen wie Flugabfragen, Hotelbuchungen und Reiseplanänderungen integriert, mit dem Ziel, die Sprachinteraktion von „Fragen und Antworten“ auf „Erledigen“ zu beschleunigen. Die Deutsche Telekom hat die Validierung in Szenarien wie komplexer Tarifberatung, Störungsbehebung und Rechnungserklärung abgeschlossen; die Einsatzfähigkeit in der Callcenter-Umgebung wurde erfolgreich nachgewiesen.

Auch die Benchmark-Ergebnisse steigen. GPT-Realtime-2 liegt im Big Bench Audio-Test für Audiointelligenz um 15,2 Prozentpunkte über dem Vorgängermodell und im Audio MultiChallenge-Test für das Befolgen von Anweisungen in mehrstufigen Dialogen um 13,8 Prozentpunkte höher.

Betrachtet man den Iterationsrhythmus, so ist die Entwicklungslinie von OpenAI im Sprachbereich klar erkennbar. 2024 wurde zunächst die latenzarme Fähigkeit des erweiterten Sprachmodus von ChatGPT für Entwickler freigegeben, im August 2025 folgte die Veröffentlichung des ersten produktionsreifen Gpt-Realtime-Modells, im Februar 2026 ging Gpt-Realtime-1.5 online, und nun führt GPT-Realtime-2 diese Produktlinie offiziell von einer erlebnisorientierten Funktion in die Basisversionsreihe der unternehmensfähigen API über.

Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.

E-Mail: news@wedoany.com

Empfehlungen in Verbindung damit
Das US-Unternehmen OpenAI bringt drei Audiomodelle der GPT-Realtime-Serie auf den Markt und integriert erstmals die GPT-5-Inferenzfähigkeit in die Sprachinteraktion
2026-05-13
ClickUp aus den USA bringt Brain 2.0 heraus: Upgrade des KI-Assistenten kann komplexe Arbeitsabläufe autonom ausführen
2026-05-13
Finnischer IQM-Quantencomputer: HPC-Integrationsservice geht am deutschen LRZ in Betrieb – Slurm orchestriert hybride Rechenaufgaben einheitlich
2026-05-13
Shanghai Zhangjiang AI-Anwendungsshop in China eröffnet am 11. Mai mit über 500 innovativen KI-Produkten
2026-05-12
Jia Yueting wird Global CEO von Faraday Future in den USA, FF steigt zu einem US-amerikanischen Unternehmen für physische KI-Ökosysteme auf
2026-05-12
Telia Schweden und Kelluu Finnland führen 5G-Luftschiffversuch in Finnisch-Lappland durch – 3,5-GHz-Band versorgt netzfreie Gebiete
2026-05-12
SAP AppHaus und NTT DATA Business Solutions erweitern globale Allianz, um KI-gestützte Cloud-ERP-Einführung zu beschleunigen
2026-05-12
Ausblick im Quartalsbericht der chinesischen Zentralbank: Drei Wege, wie KI das Wirtschaftswachstum antreibt
2026-05-12
Schwedisches Pit schließt Seed-Finanzierung über 16 Millionen Dollar ab – Team positioniert sich mit „AI-Produktteam-as-a-Service" im Markt für Unternehmensabläufe
2026-05-09
US-amerikanisches Unternehmen Astranis erhält 450 Millionen US-Dollar Finanzierung und beschleunigt mit einer Bewertung von 2,8 Milliarden US-Dollar die Produktionsausweitung von Satelliten für hohe Umlaufbahnen
2026-05-09