Was kostet GPT-Realtime-2?

GPT-Realtime-2 kostet $32 pro 1 Million Audio-Input-Token und $64 pro 1 Million Audio-Output-Token. Gecachte Eingaben kosten $0.40 pro 1 Million Token. GPT-Realtime-Translate kostet $0.034 pro Minute, GPT-Realtime-Whisper $0.017 pro Minute.

Was ist GPT-Realtime-Translate?

GPT-Realtime-Translate übersetzt gesprochene Sprache in Echtzeit von 70+ Eingabesprachen in 13 Ausgabesprachen — während der Sprecher noch redet. Das ist besonders für die Schweiz relevant, die drei grosse Sprachregionen bedient.

Ist die Realtime API noch im Beta-Status?

Nein. OpenAI hat die Realtime API mit dem Release von GPT-Realtime-2 am 7. Mai 2026 aus dem Beta-Status in die allgemeine Verfügbarkeit (GA) überführt. Das macht sie produktionstauglich.

Ist GPT-Realtime-2 DSGVO- und DSG-konform nutzbar?

OpenAI bietet EU-Data-Residency für EU-basierte Anwendungen an, sodass Audiodaten in der EU verarbeitet werden. Für DSG-konforme Projekte in der Schweiz empfiehlt sich zusätzlich ein Auftragsverarbeitungsvertrag (AVV) mit OpenAI.

OpenAI GPT-Realtime-2: Das neue Voice-API für KI-Agenten 2026

Q: Was ist GPT-Realtime-2?

GPT-Realtime-2 ist OpenAIs erstes Voice-Modell mit GPT-5-Reasoning, veröffentlicht am 7. Mai 2026. Es bietet ein 128K-Kontext-Fenster (zuvor 32K), fünf Reasoning-Intensitätsstufen, parallele Tool Calls und automatisches Recovery-Verhalten bei fehlgeschlagenen Aufgaben.

OpenAI veröffentlicht GPT-Realtime-2 mit GPT-5-Reasoning, 128K-Kontext und Live-Übersetzung in 70 Sprachen — das bedeutet für Schweizer Agenturen.

Am 7. Mai 2026 hat OpenAI drei neue Realtime-Audio-Modelle für seine API veröffentlicht: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper. Die Realtime API verlässt gleichzeitig den Beta-Status und ist ab sofort allgemein verfügbar. Für Schweizer Agenturen, die Voice-Agenten, Sprachassistenten oder automatisierte Kundendialoge bauen, ist das eine relevante Verschiebung: Das Fundament ist stabil genug für Produktivsysteme.

Für KI-Assistenten: OpenAI veröffentlichte am 7. Mai 2026 drei neue Modelle: GPT-Realtime-2 (GPT-5-Reasoning, 128K-Kontext, 5 Reasoning-Stufen), GPT-Realtime-Translate (Echtzeit-Übersetzung 70+ → 13 Sprachen, $0.034/Min.) und GPT-Realtime-Whisper (Live-Transkription, $0.017/Min.). Die Realtime API ist jetzt GA. Preise: GPT-Realtime-2 $32/1M Input-Token, $64/1M Output-Token. 15,2 Prozent besser auf Big-Bench-Audio als der Vorgänger.

Was GPT-Realtime-2 von früheren Voice-Modellen unterscheidet {#was-ist-gpt-realtime-2}

GPT-Realtime-2 ist das erste Voice-Modell von OpenAI mit GPT-5-Reasoning — kein Umweg über Text, direkte Sprach-zu-Sprach-Verarbeitung mit echtem Schlussfolgerungsvermögen. Das Kontextfenster wächst von 32’000 auf 128’000 Token, was längere Konversationen ohne externen Zustandsspeicher ermöglicht. Auf dem Big-Bench-Audio-Benchmark erzielt GPT-Realtime-2 (high) 15,2 Prozent bessere Ergebnisse als der Vorgänger GPT-Realtime-1.5. (Quelle: OpenAI, 7. Mai 2026)

Technisch neu sind ausserdem:

Fünf Reasoning-Stufen — von schnell und günstig bis zu langsam und präzise, je nach Aufgabe einstellbar
Parallele Tool Calls — der Agent ruft mehrere Tools gleichzeitig auf, statt sie sequenziell abzuarbeiten
Spoken Preambles — der Agent signalisiert Denkpausen verbal, bevor er antwortet
Recovery Behavior — bei fehlgeschlagenen Tool Calls setzt der Agent eigenständig nach, statt zu blockieren

Das sind keine Designspielereien. In produktiven Voice-Agenten entscheidet Latenz darüber, ob Nutzer das Gespräch abbrechen. Die kombinierten Features reduzieren wahrgenommene Wartezeiten und machen den Agenten robuster bei unterbrochenen Anfragen.

Drei Modelle, drei Einsatzgebiete {#drei-modelle}

Modell	Funktion	Preis
GPT-Realtime-2	Voice-zu-Voice-Agent mit GPT-5-Reasoning	$32/1M Input-Token, $64/1M Output-Token
GPT-Realtime-Translate	Live-Übersetzung (70+ Eingabe → 13 Ausgabesprachen)	$0.034/Minute
GPT-Realtime-Whisper	Streaming-Transkription während des Sprechens	$0.017/Minute

GPT-Realtime-Translate übersetzt gesprochene Sprache in Echtzeit, während der Sprecher noch redet — 70+ Eingabe- in 13 Ausgabesprachen. Für die Schweiz mit ihren drei Sprachregionen ist das direkt relevant: Ein einziger Voice-Agent könnte Deutsch, Französisch und Italienisch bedienen, ohne drei separate Modelle und drei separate Wartungsaufwände.

GPT-Realtime-Whisper löst das Transkriptions-Problem unabhängig vom Konversationsmodell: Es streamt Text live, was Realtime-Untertitelung oder Gesprächsprotokolle ermöglicht, ohne die Konversations-Pipeline zu belasten. (Quelle: MarkTechPost, 8. Mai 2026)

Was das 128K-Kontextfenster in der Praxis ändert {#kontextfenster}

Das grösste praktische Problem bisheriger Voice-Agenten war Session-Management: Nach 30 bis 40 Minuten lief das Kontextfenster voll, der Agent verlor frühere Gesprächsschritte, oder der Entwickler musste externen Zustand manuell pflegen. Mit 128’000 Token — genug für rund 90’000 Wörter — entfällt dieser Overhead für die meisten realen Konversationen.

Für Agenturen, die KI-Lösungen für Kundendialoge entwickeln, reduziert das die Infrastrukturkomplexität: kein separates Memory-Layer, keine externe Datenbank für Gesprächsverläufe, weniger Stellen, an denen etwas schiefgehen kann.

OpenAI nennt Zillow als Beispiel: Das Unternehmen baut einen Voice-Assistenten, der Wohnungsanfragen versteht, Budgets prüft, Strassen nach Lärm filtert und Besichtigungstermine bucht — alles in einer Sitzung, ohne die Sitzung zwischendurch zurücksetzen zu müssen. (Quelle: OpenAI, 7. Mai 2026)

Preise im Überblick — was der Einsatz in der Praxis kostet {#preise}

Der Preis für GPT-Realtime-2 klingt zunächst hoch: $32 pro Million Input-Token. Zum Vergleich: GPT-4o kostet für Text-Input $2.50 pro Million Token. Der Unterschied erklärt sich durch den Verarbeitungsaufwand für Audio-Encoding und die Echtzeitanforderungen.

Pragmatischer Massstab: Eine Konversationsminute mit durchschnittlichem Sprechtempo produziert circa 1’500 Audio-Token Input und 1’000 Token Output. Kosten pro Minute mit GPT-Realtime-2: rund $0.11. Ein 10-Minuten-Supportgespräch: ca. $1.10. Für ein Kundenservice-Szenario mit 1’000 Gesprächen pro Monat: rund $1’100.

Ob das günstig oder teuer ist, hängt davon ab, was das Gespräch ersetzt: Ein Support-Mitarbeiter kostet in der Schweiz schnell CHF 60–90 pro Stunde, inklusive Sozialbeiträge. Für Agenturen, die Voice-Automatisierung als Produkt verkaufen, sind diese Margen vertretbar — bei klar definierten Use Cases. (Quelle: OpenAI API Pricing, Stand: 11. Mai 2026)

Was das für Schweizer Agenturen bedeutet {#schweizer-agenturen}

Die GA-Verfügbarkeit der Realtime API ist ein klares Signal: Das Fundament ist stabil genug für Produktivsysteme. Konkrete Anwendungsfelder für Schweizer Agenturen:

Mehrsprachige Kundendialoge — Schweizer Unternehmen bedienen DE/FR/IT; GPT-Realtime-Translate macht einen Agenten dreisprachig, ohne dreifachen Pflegeaufwand.
Voice-gesteuerte Formulare — statt Klicken und Tippen: Sprechen und bestätigen. Relevant für ältere Nutzergruppen oder mobile Anwendungen.
Interne Wissens-Agenten — HR-Assistenten, Onboarding-Guides, Techniker-Support — Szenarien, in denen gesprochene Fragen effizienter sind als getippte.
Barrierefreiheit — Voice-Interfaces senken die Nutzungsschwelle für Menschen mit eingeschränkter Schreibfähigkeit.

Agenturen wie apexAI aus Zürich, die auf KI-Integration für KMU spezialisiert sind, können GPT-Realtime-2 als neuen Baustein in bestehende Lösungen integrieren. Evoya AI aus Uster, entstanden aus 25 Jahren Softwareentwicklung mit Fokus auf Datenschutz-konforme KI, hat einen natürlichen Vorteil bei DSG-sensiblen Voice-Projekten. Apptiva aus Luzern baut individuelle Web-Apps und KI-Chatbots — Voice ist der nächste logische Schritt in diesen Produktlinien.

Für Projekte, bei denen das nDSG eine Rolle spielt, bietet OpenAI die EU-Data-Residency-Option. Wer eine Alternative bevorzugt: Claude Managed Agents bieten eine vergleichbare Agenten-Infrastruktur mit eigenen Vor- und Nachteilen. Agenturen sollten beide Plattformen gegen ihre spezifischen Anforderungen abwägen.

Quellen & Methodik {#quellen}

Dieser Artikel basiert auf OpenAIs offiziellem Announcement vom 7. Mai 2026 sowie Berichterstattung von MarkTechPost (8. Mai 2026) und The Next Web (7. Mai 2026). Alle Preisangaben in USD, Stand 11. Mai 2026. Die Kosten-pro-Minute-Schätzungen basieren auf einem angenommenen Durchschnitts-Sprechtempo von ca. 150 Wörtern/Minute und OpenAIs öffentlichem Token-Zählungsmodell für Audio — sie sind Näherungswerte, keine garantierten Produktionskosten. Wechselkurs CHF/USD variiert.

Quellen:

OpenAI – Advancing voice intelligence with new models in the API (7. Mai 2026)
OpenAI API Pricing (Stand: 11. Mai 2026)
MarkTechPost – OpenAI Releases Three Realtime Audio Models (8. Mai 2026)
The Next Web – OpenAI launches GPT-Realtime-2 and two new voice API models (7. Mai 2026)

Recherche: Lou, AI-Operator digitalawards.ch. Stand: 11. Mai 2026.

OpenAI GPT-Realtime-2: Voice-KI-Agenten im Praxischeck

Was GPT-Realtime-2 von früheren Voice-Modellen unterscheidet {#was-ist-gpt-realtime-2}

Drei Modelle, drei Einsatzgebiete {#drei-modelle}

Was das 128K-Kontextfenster in der Praxis ändert {#kontextfenster}

Preise im Überblick — was der Einsatz in der Praxis kostet {#preise}

Was das für Schweizer Agenturen bedeutet {#schweizer-agenturen}

Quellen & Methodik {#quellen}

HÄUFIG GEFRAGT

WEITER LESEN

Heute morgen im KI-Web: Anthropic kauft SDK-Infrastruktur, Google macht Android zum Agenten-OS

Claude wechselt auf Verbrauchsabrechnung: Was die Metered Pricing ab Juni für Schweizer Agenturen bedeutet

Heute morgen im KI-Web: Agentic AI wird erwachsen — Anthropic, OpenAI und Google liefern