Tech & Trends DeepL greift Google und OpenAI mit Echtzeit-Sprachübersetzung an

DeepL greift Google und OpenAI mit Echtzeit-Sprachübersetzung an

Das deutsche KI-Unicorn startet Voice-to-Voice-Übersetzung für Zoom und Teams. Die Technologie könnte Callcenter revolutionieren – wenn DeepL die Balance zwischen Latenz und Qualität meistert.

Das Kölner KI-Übersetzungs-Unicorn DeepL macht Ernst mit seiner Voice-Strategie: Das Unternehmen hat eine Voice-to-Voice-Übersetzungssuite veröffentlicht, die gesprochene Sprache in Echtzeit in andere Sprachen übersetzt. Mit Add-ons für Zoom und Microsoft Teams sowie einer offenen API für Entwickler will DeepL endlich aus dem Schatten von Google Translate und ChatGPT treten. Die Botschaft: Deutsche KI-Excellence kann mehr als nur Texte übersetzen.

Voice-Translation mit deutschem Qualitätsanspruch

„Nachdem wir uns so viele Jahre mit Textübersetzungen beschäftigt haben, war die Sprachübersetzung für uns ein logischer nächster Schritt“, sagte DeepL-CEO Jarek Kutylowski laut TechCrunch. Die größte technische Herausforderung: Die Balance zwischen minimaler Latenz – also der Verzögerung zwischen Sprechen und übersetzter Wiedergabe – und präzisen Ergebnissen zu finden.

DeepLs aktueller Ansatz ist pragmatisch statt revolutionär: Das System wandelt Sprache zunächst in Text um, übersetzt diesen und wandelt ihn dann wieder in Sprache zurück. Genau hier sieht DeepL seinen Wettbewerbsvorteil: Jahrelange Expertise in Textübersetzung soll die Qualität sichern, wie TechCrunch berichtet. Die Voice-to-Voice-Technologie kann sich an branchenspezifische Begriffe, Firmennamen und Personennamen anpassen – entscheidend für professionelle Anwendungen.

Zoom-Integration und Callcenter-Revolution

Die ersten Anwendungsfälle sind konkret: Zoom- und Teams-Nutzer können entweder Echtzeit-Übersetzungen hören, während andere in ihrer Muttersprache sprechen, oder den übersetzten Text auf dem Bildschirm verfolgen. Das Programm befindet sich in Early Access, Unternehmen können sich auf eine Warteliste setzen lassen.

Zusätzlich bietet DeepL mobile und webbasierte Konversationen sowie Gruppengespräche für Frontline-Worker – per QR-Code können Teilnehmer in Trainings oder Workshops einsteigen. Kutylowski sieht besonders im Kundenservice massives Potenzial: „KI wird reimaginieren, wie Kundenservice in den kommenden Jahren aussehen wird“, sagte er laut TechCrunch. Ein Übersetzungs-Layer helfe Unternehmen, Support in Sprachen anzubieten, für die qualifiziertes Personal rar und teuer sei. Die offene API ermöglicht maßgeschneiderte Lösungen etwa für Callcenter.

Deutscher David gegen amerikanische Goliaths

DeepL betritt einen zunehmend umkämpften Markt. Sanas sammelte vergangenes Jahr 65 Millionen Dollar von Quadrille Capital und Teleperformance ein und modifiziert mit KI Akzente von Callcenter-Agenten in Echtzeit. Das in Dubai ansässige Camb.AI fokussiert sich auf Sprachsynthese und Übersetzung für Medien- und Unterhaltungsunternehmen sowie Amazon Web Services.

Palabra, finanziert von Reddit-Mitgründer Alexis Ohanians Firma Seven Seven Six, entwickelt eine Echtzeit-Sprachübersetzungs-Engine, die sowohl Bedeutung als auch die ursprüngliche Stimme der Sprecher bewahren will – direkter Wettbewerb zu DeepL. Langfristig plant DeepL ein durchgängiges Ende-zu-Ende-Sprachübersetzungsmodell, das den Text-Zwischenschritt komplett überspringt. Ein ambitioniertes Ziel, das zeigt: Das deutsche Unicorn will nicht nur mitspielen, sondern den Markt definieren.

Business Punk Check

DeepL liefert solide deutsche Ingenieurskunst, aber die Voice-Translation ist evolutionär, nicht revolutionär. Der Speech-to-Text-to-Speech-Ansatz mag pragmatisch sein, doch echte Disruption sieht anders aus. Während gut finanzierte US-Wettbewerber wie Palabra bereits an Ende-zu-Ende-Modellen arbeiten, hinkt DeepL technologisch hinterher. Die Zoom-Integration ist smart, aber kein Alleinstellungsmerkmal – Microsoft und Google haben die Ressourcen, das binnen Monaten zu kopieren.

DeepLs Trumpfkarte bleibt die Übersetzungsqualität aus jahrelanger Textarbeit. Doch im KI-Zeitalter ist „bessere Qualität“ kein ausreichender Burggraben mehr. Die Frage ist nicht, ob DeepL ein gutes Produkt hat, sondern ob es schnell genug skaliert, bevor Big Tech aufholt. Für Callcenter-Betreiber dennoch interessant: Die API eröffnet Custom Solutions, die Google Translate nicht bietet. Unser Tipp: Early Access nutzen, aber parallel Wettbewerber evaluieren.

Häufig gestellte Fragen

Wie funktioniert DeepLs Voice-to-Voice-Übersetzung technisch?

Das System wandelt Sprache zunächst in Text um, übersetzt diesen mit DeepLs Textübersetzungs-Engine und wandelt das Ergebnis wieder in Sprache zurück. Langfristig plant DeepL ein Ende-zu-Ende-Modell ohne Text-Zwischenschritt.

Für welche Plattformen ist DeepLs Sprachübersetzung verfügbar?

DeepL bietet Add-ons für Zoom und Microsoft Teams (derzeit Early Access), mobile und webbasierte Konversationen sowie Gruppengespräche per QR-Code. Über eine API können Entwickler eigene Lösungen etwa für Callcenter bauen.

Wer sind DeepLs Hauptkonkurrenten im Voice-Translation-Markt?

Sanas (65 Mio. Dollar Funding) modifiziert Akzente für Callcenter, Camb.AI fokussiert Media-Dubbing für AWS, Palabra entwickelt Ende-zu-Ende-Sprachübersetzung mit Stimmenerhalt. Auch Google und Microsoft arbeiten an vergleichbaren Features für ihre Plattformen.

Welche Sprachen unterstützt DeepLs Echtzeit-Sprachübersetzung?

Konkrete Sprachkombinationen wurden nicht kommuniziert. DeepL unterstützt bei Textübersetzungen über 30 Sprachen. Die Voice-Suite kann sich an branchenspezifische Begriffe, Firmennamen und Personennamen anpassen.

Quellen: TechCrunch, Trending Topics

Das könnte dich auch interessieren