Mann und KI-Übersetzungstools

Potenzial und Grenzen von KI-Videoübersetzungstools

Technologien zur Erstellung und Bearbeitung von Videos stehen frei im Internet zur Verfügung. Mit ihnen lassen sich Videos in andere Sprachen übersetzen, aber auch leicht manipulieren. Wie funktionieren diese KI-Tools und welche Chancen und Risiken liefern diese? // Von Maximilian Klotz und Joel Israel Churquina Zenteno

Eine Studie von Rössler et al. von 2019 zeigt eine erste Tendenz der Gefahren, die von manipuliertem Videomaterial ausgehen können. 204 Probanden wurden jeweils 60 Videos gezeigt, wobei jeweils 50 Prozent der Clips original und die andere Hälfte bearbeitet waren. Die Probanden mussten dann einordnen, ob es sich bei den ihnen vorliegenden Bildern um Originale oder um Fakes handelte. Etwa 70 Prozent der Teilnehmenden konnten Bilder in hoher Bildauflösung korrekt zuordnen, während nur noch 60 Prozent auch die Bilder mit niedriger Bildauflösung unterscheiden konnten.

Rask.Ai und HeyGen Labs auf Basis neuronaler Netzwerke

Videoübersetzungstools wie Rask.Ai und HeyGen Labs gehören zu den neuesten KI-Systemen. Sie basieren auf neuronalen Netzwerken, die durch jede weitere Benutzung der Software ihren Pool und somit ihr Wissen erweitern. Diese Tools durchlaufen eine Reihe an Programmen, die das gesprochene Wort und die Mimik von Personen in Videos zu übersetzen. Um das gesprochene Wort zu extrahieren, setzen die Maschinen auf maschinelles Lernen. Hierbei kommen KI-Modelle zum Einsatz, die es ermöglichen, kontextuelle Zusammenhänge in Sätzen zu verstehen und ihre semantische Bedeutung zu erfassen. Das Training erfolgt mit einem großen Pool an Textdaten in verschiedenen Sprachen. Sie sollen die Vielfalt der Sprachmuster abdecken und somit eine präzise Übersetzung gewährleisten. Die Mimik wird dann basierend auf Convolutional Neural Networks (CNN’s) angepasst. CNN‘s beobachten Merkmale wie Kanten und Texturen in Bildern und versuchen Muster in Bildern zu erkennen.

KI-Modelle berechnen Wahrscheinlichkeiten

Martin Ruskowski ist Professor an der TU Kaiserslautern und arbeitet am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI). Für ihn besteht das Lernen der Maschinen darin, Modelle zu berechnen, die statistische Zusammenhänge aus den eingehenden Daten ermitteln. "Maschinen passen die Parameter des Modells so lange an, bis die Vorhersage des Modells mit den entsprechenden Eingangsdaten übereinstimmt", sagt Ruskowski. Dabei berechnen die KI-Systeme Wahrscheinlichkeiten von Informationen, die Sie auf den aktuellen Sachverhalt anwenden.
Torsten Zesch, Professor an der Fernuniversität Hagen, leitet als Informatiker eine Forschungsprofessur in der Computerlinguistik. Für ihn sind übersetzte Videos mit Tools wie Rask.Ai und HeyGen Lab "Instanzen". Das bedeutet, dass diese Tools eine Kombination aus verschiedenen Implementierungen von KI-Technologien sind, die für bestimmte Anwendungen und Aufgaben trainiert wurden.

YouTube

Mehr Informationen zum Datenschutz von YouTube

Video laden

Bisher noch keine rechtliche Grundlage

Im deutschen Recht gibt es noch keinen Straftatbestand, der die Erstellung und Veröffentlichung von Deepfakes mit Hilfe von Künstlicher Intelligenz (KI) reguliert. Die Europäische Kommission hat an einem Entwurf einer KI-Verordnung gearbeitet. Dort heißt es: "Nutzer eines KI-Systems, das Bild-, Ton- oder Videoinhalte erzeugt oder manipuliert, die wirklichen Personen, Gegenständen, Orten oder anderen Einrichtungen oder Ereignissen merklich ähneln und einer Person fälschlicherweise als echt oder wahrhaftig erscheinen würden ("Deepfake"), müssen offenlegen, dass die Inhalte künstlich erzeugt oder manipuliert wurden."

Deepfakes immer schwerer zu erkennen

Professionelle Deepfakes sind mit dem bloßen Auge nicht von echten, unverfälschten Videos zu unterscheiden. Eines der Hauptprobleme bei der Erkennung von solchen Inhalten ist, dass sie sehr glaubwürdig aussehen. Selbst Experten haben mittlerweile Schwierigkeiten, sie von echten Videos zu unterscheiden. Um diesen Herausforderungen zu begegnen, arbeiten Wissenschaftler und Technologieunternehmen an verschiedenen Methoden zur Identifikation von Deepfakes. Dazu gehören unter anderem die Verwendung von Deep Learning-Algorithmen, die Analyse von Bewegungsmustern und die Überprüfung von Audioaufnahmen.

Es kommt auf natürliche Details an

Eine Möglichkeit, mit deren Hilfe man Deepfakes zu Anfang teilweise erkennen konnte, war die Suche nach Merkmalen von synthetischen Videos, wie zum Beispiel unnatürliche Bewegungen oder verdächtige Veränderungen im Aussehen von Personen. Wenn sich beispielsweise das Gesicht einer Person im Video plötzlich seltsam verzerrt, eine gewisse Unschärfe im Gesicht oder andere Effekte auftreten, kann davon ausgegangen werden, dass mit dem Video etwas nicht stimmt. Diese Effekte tauchen aber immer seltener in professionellen Fälschungen auf, da die KIs lernen, solche Fehler zu vermeiden. Daher ist es ratsam, immer mehrere Quellen zu überprüfen und auf Anzeichen für Fälschungen zu achten, wie zum Beispiel ungewöhnliche Kameraperspektiven oder seltsame Hintergründe, bevor man dem Inhalt eines Videos Glauben schenkt oder es weiterverbreitet.

KI mit KI entlarven

Eine Option auf Deepfakes zu reagieren, ist die Entwicklung von Algorithmen zur Detektion von Fälschungen. Diese Algorithmen suchen nach Unstimmigkeiten wie falschen Helligkeits- oder Schatteneffekten oder unscharfe Konturen, die auf eine Fälschung hindeuten können. Auch hier wird Deep Learning eingesetzt. Jedoch sind auch diese Algorithmen fehleranfällig und können überlistet werden. Deepfake-Erstellungsalgorithmen können sich stetig verbessern, indem sie die Fehler der Deepfake-Detektionsalgorithmen nutzen, um ihre eigenen Fehler auszubessern. Das wiederum erfordert eine Reaktion seitens der Detektion, welche dann wieder ausgenutzt werden kann.

Augen als Indiz zur Verifikation

Mehrere Informatiker der University of Buffalo, New York haben sich intensiv mit der Frage beschäftigt, wie man Deepfakes, die den herkömmlichen Methoden standhalten, enttarnen kann. Mithilfe einer Studie konnten sie eine Methode entwickeln, die zuverlässig Fälschungen erkennen kann, indem sie die Augen der dargestellten Personen analysiert. Gesichter, die von einer KI erstellt werden, basieren auf vorhandenen Bildern der betreffenden Personen und werden auf die gewünschte Mimik umgerechnet. Die meisten Softwares verwenden dazu ein Ausgangsbild im Hochformat, bei dem die Augen der Menschen direkt in die Kamera blicken. Viele dieser KIs können die Lichtreflexionen in beiden Augen jedoch nicht realistisch anpassen. Bei unverfälschten Videos reflektieren beide Augen dieselbe Lichtumgebung. Bei den Deepfakes jedoch bemerkten Forscher deutliche Unterschiede zwischen den Lichtreflexionen in den Augen der Gesichter, die durch KI generiert wurden. Sie entwickelten ein Tool, das nun in der Lage ist, Videos von Gesichtern auf genau dieses Merkmal zu untersuchen.

Ein Berufsfeld im Wandel

Dolmetschern und Übersetzern helfen solche Technologien hingegen besonders bei Routineaufgaben. Laut dem deutschen Bundesverband der Dolmetscher und Übersetzer (BDÜ) werden sich diese Berufsfelder durch den Einsatz von KI wandeln. Die Übersetzungssoftwares sind nicht fehlerfrei und es bedarf immer einer realen Person, die die Ergebnisse überprüft und überarbeitet, was neben fundierten Kenntnissen der Methodik und der Feinheiten des hochkomplexen Übersetzungsprozesses eine hohe Konzentration sowie viel Erfahrung mit diesen Systemen und ihrer Funktionsweise erfordert. Beim Dolmetschen, also der mündlichen Übertragung von einer Sprache in eine andere, kommen auch Aspekte wie Gestik, Mimik und die Art, wie etwas gesagt wird, hinzu.

"Die Arbeit qualifizierter Sprachexperten bleibt unersetzlich"

BDÜ-Vizepräsidentin Dr. Luisa Callejón betont: "Im professionellen Kontext müssen Übersetzungen und Verdolmetschungen korrekt und rechtssicher sein – ob in internationalen Geschäftsbeziehungen, in der globalen Politik oder auf nationaler Ebene im Zusammenhang mit Migrations- und Integrationspolitik oder im Gesundheitswesen und im Gemeinwesen." Für sie ist der menschliche Faktor beim Übersetzen und Dolmetschen, auch bei informeller Kommunikation, nach wie vor ausschlaggebend und könne durch keine KI-gesteuerte Maschine ersetzt werden. Die Berufe von qualifizierten Sprachexperten sieht Callejón deshalb zumindest auf absehbare Zeit nicht gefährdet. Als Ausblick hält die Verbandsvertreterin fest: "Durch die weitere Verbreitung von Maschineller Übersetzung und KI-Anwendungen wird die notwendige kompetente Überprüfung und Überarbeitung der Ergebnisse immer wichtiger."

Die Autoren

Autorenfoto Maximilian Klotz

Maximilian Klotz

Autorenfoto Joel Israel Churquina Zenteno

Joel Israel Churquina Zenteno

Kommentar hinterlassen

Mit Absenden des Formulars erkären Sie sich mit der Speicherung und Verarbeitung der darin eingegebenen personenbezogenen Daten einverstanden. Weitere Hinweise dazu finden Sie in unserer Datenschutzerklärung.