Echtzeit-KI-Unterstützung für Übersetzer

Translator Copilot ist der neue KI-Assistent von Unbabel, der direkt in unser CAT-Tool integriert ist. Es nutzt die Large Language Models (LLM) von Unbabel und die proprietäre Quality Estimation (QE)-Technologie, um bei jeder Übersetzung als zweites Paar intelligenter Augen zu fungieren. Ganz gleich, ob überprüft wird, ob Kundenanweisungen befolgt werden, oder ob potenzielle Fehler in Echtzeit gemeldet werden: Translator Copilot stärkt die Bindung zwischen Kunden und Übersetzern und stellt sicher, dass Übersetzungen nicht nur korrekt sind, sondern auch vollständig den Erwartungen entsprechen.

Warum wir Translator Copilot entwickelt haben

Unbabel-Übersetzer erhalten Anweisungen auf zwei Arten:

Allgemeine Hinweise auf Workflow-Ebene definiert (z. B. Formalität oder Formatierungspräferenzen)
Projektspezifische Anweisungen die für bestimmte Dateien oder Inhalte gelten (z. B. „Markennamen nicht übersetzen“)

Echtzeit-KI-Unterstützung für Übersetzer

Diese erscheinen im TAO-Tool und sind für die Aufrechterhaltung der Markengenauigkeit und -konsistenz unerlässlich. Bei knappen Fristen oder komplexer Beratung kann es jedoch sein, dass diese Anweisungen nicht befolgt werden.

Hier kommt Translator Copilot ins Spiel. Es wurde entwickelt, um diese Lücke zu schließen, indem es automatische Unterstützung in Echtzeit bietet. Er prüft die Einhaltung der Anweisungen und meldet etwaige Probleme bei der Arbeit des Übersetzers. Neben der Überprüfung von Anweisungen werden auch Grammatikprobleme, Auslassungen oder falsche Terminologie hervorgehoben – und das alles in einem nahtlosen Arbeitsablauf.

Wie Translator Copilot hilft

Die Funktion soll in drei Hauptbereichen einen Mehrwert bieten:

Verbesserte Compliance: Reduziert das Risiko verpasster Anweisungen
Überlegene Übersetzungsqualität: Zeigt potenzielle Probleme frühzeitig an
Reduzierte Kosten und Wiederherstellung: Minimiert die Notwendigkeit manueller Überprüfungen

Zusammengenommen machen diese Vorteile Translator Copilot zu einem unverzichtbaren Werkzeug für qualitätsbewusste Übersetzungsteams.

Von der Idee zur Integration: wie wir es aufgebaut haben

Wir begannen in einer kontrollierten Spielplatzumgebung und testeten anhand verschiedener Eingabeaufforderungen und Vorlagen, ob LLMs die Einhaltung von Anweisungen zuverlässig beurteilen konnten. Nachdem wir die leistungsstärkste Konfiguration identifiziert hatten, integrierten wir sie in Polyglot, unsere interne Übersetzungsplattform.

Aber die Identifizierung einer funktionierenden Konfiguration war nur der Anfang. Wir führten weitere Evaluierungen durch, um zu verstehen, wie sich die Lösung in der Praxis von Übersetzern verhielt, sammelten Feedback und verfeinerten die Funktionalität vor der vollständigen Bereitstellung.

Von dort aus haben wir alles zusammengeführt: LLM-basierte Anweisungsprüfung und QE-basierte Fehlererkennung wurden in unserem CAT-Tool zu einem einzigen, einheitlichen Erlebnis zusammengeführt.

Was Übersetzer sehen

Translator Copilot analysiert jedes Segment und verwendet visuelle Hinweise (kleine farbige Punkte), um auf Probleme hinzuweisen. Wenn Sie auf ein markiertes Segment klicken, werden zwei Arten von Kommentaren angezeigt:

KI-Vorschläge: LLM-basierte Compliance-Prüfungen, die Abweichungen von Kundenanweisungen aufzeigen
Mögliche Fehler: Von QE-Modellen gekennzeichnet, einschließlich Grammatikproblemen, Übersetzungsfehlern oder Auslassungen

Übersetzeransicht in Polyglot – Übersetzer-Copilot

Um die Arbeitsabläufe der Übersetzer zu unterstützen und eine reibungslose Einführung zu gewährleisten, haben wir mehrere Benutzerfreundlichkeitsfunktionen hinzugefügt:

Annahme von Vorschlägen mit einem Klick
Möglichkeit, falsch positive Ergebnisse oder falsche Vorschläge zu melden
Schnelle Navigation zwischen markierten Segmenten
Sammeln von Feedback am Ende der Aufgabe, um Benutzereinblicke zu gewinnen

Technische Herausforderungen, die wir gelöst haben

Um Translator Copilot zum Leben zu erwecken, mussten mehrere schwierige Herausforderungen gelöst werden:

Niedrige anfängliche Erfolgsquote: In ersten Tests hat das LLM die Einhaltung der Anweisungen nur in 30 % der Fälle korrekt erkannt. Durch umfangreiches Rapid Engineering und Anbieterexperimente konnten wir diesen Wert vor der vollständigen Bereitstellung auf 78 % steigern.

HTML-Formatierung: Die Übersetzeranweisungen sind aus Gründen der Übersichtlichkeit in HTML geschrieben. Dies führte jedoch zu einem neuen Problem: einer Verschlechterung der LLM-HTML-Leistung. Wir haben dieses Problem gelöst, indem wir den HTML-Code entfernt haben, bevor wir die Anweisungen an das Modell gesendet haben. Dies erforderte einen schnellen und sorgfältigen Entwurf, um Bedeutung und Struktur beizubehalten.

Glossarausrichtung: Eine weitere anfängliche Herausforderung bestand darin, dass einige Vorlagenvorschläge im Widerspruch zu Kundenglossaren standen. Um dieses Problem anzugehen, haben wir die Eingabeaufforderungen verfeinert, um den Glossarkontext einzubeziehen, wodurch Konflikte reduziert und das Vertrauen in die Vorschläge der KI gestärkt werden.

Wie wir Erfolg messen

Um die Wirkung von Translator Copilot zu bewerten, haben wir mehrere Metriken implementiert:

Fehler Delta: Vergleich der Anzahl der Probleme, die zu Beginn und am Ende jeder Aufgabe gemeldet wurden. Eine positive Fehlerreduktionsrate zeigt an, dass Übersetzer Copilot nutzen, um die Qualität zu verbessern.

Fehlerreduktionsrate nach Prozentsatz der Aufgaben – Translator Copilot

KI-Vorschläge im Vergleich zu möglichen Fehlern: KI-Vorschläge führten zu einer Fehlerreduktionsrate von 66 %, verglichen mit 57 % bei möglichen Fehlern allein.

KI-Vorschläge vs. mögliche Fehler – Übersetzer-Copilot

Benutzerverhalten: Bei 60 % der Aufgaben ging die Anzahl der gemeldeten Probleme zurück. In 15 % der Fälle gab es keine Änderung, wahrscheinlich wurden die Vorschläge ignoriert. Wir verfolgen auch Berichte über Vorschläge zur Verbesserung des Modellverhaltens.

Aus unseren Daten ergab sich eine interessante Erkenntnis: Die LLM-Leistung variiert je nach Sprachpaar. Beispielsweise sind die Fehlerquoten in Deutsch-Englisch, Portugiesisch-Italienisch und Portugiesisch-Deutsch höher und in englischen Ausgangssprachenpaaren wie Englisch-Spanisch oder Englisch-Norwegisch niedriger, einem Bereich, den wir weiterhin untersuchen.

KI-Vorschläge pro 1.000 Wörter gemeldet – Translator Copilot

Blick in die Zukunft

Translator Copilot ist ein großer Fortschritt bei der Kombination von GenAI und Sprachworkflows. Es vereint das Befolgen von Anweisungen, Fehlererkennung und Benutzerfeedback zu einem zusammenhängenden Erlebnis. Am wichtigsten ist, dass es den Übersetzern hilft, schneller bessere Ergebnisse zu liefern.

Wir sind gespannt auf die ersten Ergebnisse und noch gespannter auf das, was als nächstes kommt! Das ist erst der Anfang.