20.05.2019 16:13 |

Sprachsynthese

KI imitiert menschliche Stimme täuschend echt

Was ist echt und was eine Fälschung? In Zeiten maschinellen Lernens und künstlicher Intelligenz fällt die Unterscheidung zunehmend schwieriger - das gilt für Bilder und Videos ebenso wie für die menschliche Sprache. Dem von ehemaligen Google-, IBM- und Microsoft-Mitarbeitern gegründeten kanadischen Start-up Dessa ist es jetzt gelungen, die Stimme des populären Podcasters Joe Rogan mittels Sprachsynthese täuschend echt zu imitieren.

Es ist die laut Angaben von Dessa „realistischste KI-Simulation einer Stimme (…), die wir bisher gehört haben“. Das vom kanadischen Start-up entwickelte System namens „RealTalk“ erzeugt „lebensechte Sprache“ per Texteingabe. Erstes und prominentes Opfer: der populäre Podcaster Joe Rogan, dessen Stimme nun mittels Sprachsynthese täuschend echt imitiert wurde, wie die Website fakejoerogan.com demonstriert. Hier werden das Original und die Fälschung in Form von Hörproben gegenübergestellt - eine Unterscheidung der Stimmen dürfte selbst geübten Ohren schwerfallen.

„Ziemlich beängstigend“
„Das ist ziemlich beängstigend“, findet denn auch Dessa selbst und warnt davor, dass die Technologie in den falschen Händen dazu missbraucht werden könnte, um als vermeintlicher Verwandter per Telefon an persönliche Informationen des Angerufenen zu gelangen, sich Zugang zu Hochsicherheitsbereichen zu verschaffen oder als gefälschtes Audio-Dokument eines Politikers Wahlergebnisse zu manipulieren oder einen sozialen Aufstand zu verursachen.

Aus diesem Grund habe sich das Unternehmen auch entschlossen, vorerst keinerlei Forschungsergebnisse, Modelle oder Datensätze zu veröffentlichen. Es gebe einen großen Unterschied zwischen der Erforschung von KI und deren Umsetzung in die Praxis, betont Dessa in einem Blogeintrag die Wichtigkeit, die Öffentlichkeit auf die Auswirkungen der Technologie aufmerksam zu machen.

Künftig jede Stimme imitierbar
„Im Moment sind technisches Fachwissen, Einfallsreichtum, Rechenleistung und Daten erforderlich, damit Modelle wie ‚RealTalk‘ gut funktionieren“, so Dessa. Nicht jeder könne daher Stimmen einfach imitieren. „Aber in den nächsten Jahren (oder sogar früher) werden wir erleben, wie die Technologie so weit voranschreitet, dass nur wenige Sekunden Audiomaterial benötigt werden, um eine naturgetreue Nachbildung der Stimme eines jeden Menschen auf dem Planeten zu erstellen.“

Technologie birgt auch Vorteile
Es gebe aber auch „wirklich gute Dinge, die aus Sprachsynthesemodellen hervorgehen könnten“, betont Dessa. So könnten dank Sprachsynthese Nutzer künftig auf eine Weise mit Sprachassistenten sprechen, „die sich so natürlich anfühlt wie das Gespräch mit einem Freund“. Darüber hinaus erlaube die App maßgeschneiderte Sprachapplikationen - etwa eine Fitness-Anwendung, in der Arnold Schwarzenegger vor oder während des Trainings mittels personalisierter Ansprachen die Nutzer motiviere.

Sebastian Räuchle
Sebastian Räuchle
Kommentare
Eingeloggt als 
Nicht der richtige User? Logout

Willkommen in unserer Community! Eingehende Beiträge werden geprüft und anschließend veröffentlicht. Bitte achten Sie auf Einhaltung unserer Netiquette und AGB. Für ausführliche Diskussionen steht Ihnen ebenso das krone.at-Forum zur Verfügung.

User-Beiträge geben nicht notwendigerweise die Meinung des Betreibers/der Redaktion bzw. von Krone Multimedia (KMM) wieder. In diesem Sinne distanziert sich die Redaktion/der Betreiber von den Inhalten in diesem Diskussionsforum. KMM behält sich insbesondere vor, gegen geltendes Recht verstoßende, den guten Sitten oder der Netiquette widersprechende bzw. dem Ansehen von KMM zuwiderlaufende Beiträge zu löschen, diesbezüglichen Schadenersatz gegenüber dem betreffenden User geltend zu machen, die Nutzer-Daten zu Zwecken der Rechtsverfolgung zu verwenden und strafrechtlich relevante Beiträge zur Anzeige zu bringen (siehe auch AGB).

Produktvergleiche

Alle Produkte sehen