„Alexa & Co. sind nicht intelligent!“

Getriggert von den Visionen der Branchengrößen und diversen Medienberichten scheinen automatisiertes Sprachverstehen und Übersetzen kurz vor einem Durchbruch zu stehen: Die chinesische Speisekarte wird durch die Handykamera betrachtet für jeden lesbar, digitale Assistenten reservieren selbstständig einen Tisch im Restaurant und bei Videotelefonaten ist es dank Übersetzung in Echtzeit egal, welche Sprache die Kommunizierenden verwenden - so die vollmundigen Ankündigungen. Die Realität und die Geschwindigkeit der Entwicklung dürften da nicht ganz mithalten, glauben Experten.

Vor allem die digitalen Sprachassistenten der Tech-Schwergewichte sind derzeit in aller Munde: Amazon und Alexa, Apple und Siri, Google mit dem Google Assistant, Microsoft mit Cortana. Sprechen wird das neue Tippen und Wischen, heißt es da. Egal, ob es um die Steuerung vernetzter Geräte im Haushalt, das Auto als mobilen Computer oder den Online-Handel geht. Laut einer Umfrage der Unternehmensberatung Capgemini würde weltweit fast jeder Vierte bei der Suche nach Informationen lieber einen Sprachassistenten als eine Website nutzen. Aber wie schlau beziehungsweise nützlich sind die digitalen Helfer tatsächlich?

„Alexa und Co. sind nicht intelligent“
„Im eingeschränkten Kontext machen digitale Assistenten Sinn und da funktionieren sie auch. Aber nur deshalb, weil sie genau wissen, was sie zu erwarten haben und wie ein Dialog ungefähr aussehen wird. Alexa und Co. sind nicht intelligent und man kann hier meiner Ansicht nach nicht von einem echten Verstehen sprechen“, relativierte Stephanie Gross vom Österreichischen Forschungsinstitut für Artificial Intelligence (OFAI) die „Fähigkeiten“ dieser Systeme.

Wissen aus Datenbanken abfragen („Was ist die Hauptstadt von...?“), etwas bestellen oder einen Platz reservieren, das funktioniere bereits relativ gut. Dazu beigetragen habe natürlich auch, dass diese Systeme von Firmen entwickelt werden, die Zugriff auf sehr große Datenmengen und sehr viel Rechenleistung haben. „Mit Methoden des maschinellen Lernens kann man hier die Ergebnisse schon deutlich verbessern. Das hat sich in den vergangenen Jahren auch gezeigt“, so Gross. „Aber das reicht nicht aus, um eine vernünftige Konversation zu führen. Das wird noch eine Ewigkeit dauern.“

Auch in der Robotik gebe es gute Ergebnisse bisher nur im hochstandardisierten Bereich oder wo etwa humane Roboter ganz bestimmte Aufgaben hätten, erläuterte Gerhard Budin vom Institut für Translationswissenschaft der Universität Wien: „Auf japanischen Flughäfen und Bahnhöfen gibt es diese Assistenten, die man nach dem Weg fragen kann. Die antworten in verschiedenen Sprachen. Sobald das Gespräch aber auf ein anderes Thema kommt, steigt der Roboter aus.“ Im hochstandardisierten Umfeld, etwa dem elektronischen Handel, funktioniere das hingegen schon sehr gut.

„Manche Tools sind von Künstlicher Intelligenz weit entfernt, die anderen schon außerordentlich smart“, meinte Budin. So würden spezielle Werkzeuge, die von der Industrie nachgefragt werden, auch deutlich mehr kosten und seien nicht allgemein zugänglich. Denn nach wie vor stecke sowohl bei der Spracherkennung und -generierung als auch der maschinellen Übersetzung viel Arbeit dahinter. „Google beschäftigt beispielsweise Tausende Experten, die die Sprachdaten sammeln, aufbereiten und ständig forschen“, so Budin. Durch die Marktdominanz würden aber auch automatisch jeden Tag Millionen von Texten dort hineineingespült - „und das freiwillig und gratis“.

Zusatz-Infos für echtes „Verstehen“ nötig
Die großen Rechenleistungen und Datenmengen würden natürlich viele Vorteile bieten, glaubt auch Gross. „Aber nur weil ich viele Daten habe, deckt das noch lange nicht alle Interaktionsmöglichkeiten ab. Es kann trotzdem ganz leicht passieren, dass das System nicht weiß, wie es mit einem Satz umgehen soll, weil es den nicht in seiner Datenbank hat.“ Sie plädiert dafür, Interaktionen multimodal zu betrachten: „In Richtung eines echten Verstehens kann man sich nur bewegen, wenn man auch abseits der Sprache Zugriff auf Informationen - beispielsweise visuelle - hat, damit das System im Kontext lernt, ähnlich wie ein Kind.“ Der sprachliche Teil der Interaktion sei bisher sehr isoliert betrachtet worden. Das reiche aber oft nicht aus - gerade in Kommunikationssituationen wie dem Arbeitsplatz. Gross erforscht unter anderem, wie Mensch-Mensch-Interaktion in diesem Kontext funktioniert und wie man das auf die Mensch-Maschine-Interaktion übertragen kann.

Sprache sei sehr ungenau: „Man sagt oft ‘Äh‘ oder ‘Gib das Ding da rüber‘. Aber in der Interaktion ist das egal. Wenn ich sehe, was die Person macht, verstehe ich, was sie meint. Die Informationen aus der Sprache müssen mit Infos aus anderen Kanälen verknüpft werden.“ Das mache überall Sinn, wo man eine Künstliche Assistenz habe - egal ob Büro oder Fabrik. „Ein Roboter muss in der Lage sein, neue Dinge zu lernen, weil der Designer ja nie alle Eventualitäten vorhersehen kann. Das System muss so flexibel sein, dass es neue Konzepte erlernen kann. Dazu braucht es visuelle Informationen in Verbindung mit Sprache“, ist Gross überzeugt.

Kontext beeinflusst Sprache enorm
Das maschinelle Lernen sei eine der wichtigsten Technologien, um die Variabilität in den Griff zu bekommen und die unterschiedlichen Situationen besser analysieren zu können, betonte auch Budin. Derzeit seien die vorhandenen Werkzeuge noch kaum auf die jeweiligen Gesprächssituationen oder den sozialen Kontext ausgerichtet. Jede Situation zeichne sich aber durch anderes Sprachverhalten, andere Wörter und Sätze aus. „Damit sind sehr viele Sprachvarietäten verbunden, die man bisher unterschätzt hat“, so Budin.

Außerdem würden laufend neue Textsorten hinzukommen - etwa durch die Digitalisierung der Kommunikation, Stichwort Facebook oder Twitter. „Da gilt es noch viel an Forschung und Entwicklung zu betreiben, damit die Spracherkennung und -ausgabe, sowie die maschinelle Übersetzung das dann richtig verarbeiten können“, erklärte der Experte. Ein weiterer Aspekt sei die dynamische Entwicklung in der Gesellschaft - beispielsweise in Wien, mit einem hohen Anteil an Menschen mit Migrationshintergrund. „Auch dadurch nimmt die Variation in der Sprache zu. Ein Tool wie Siri steigt da völlig aus.“

Die Systeme seien noch ziemlich fehleranfällig, weil es so viele Sprecher, Dialekte und Soziolekte gebe, pflichtete Gross bei. Außerdem unterbreche sich der Mensch oft, wiederhole sich oder verwende die falschen Wörter. Ein weiteres Problem seien Homophone, also Wörter die gleich klingen aber unterschiedliche Bedeutungen hätten: „Erkennt das Systeme bei ‘Li(e)d‘ das Musikstück der das Augenlid?“ Dazu kommt die nonverbale Kommunikation.

Soziale Intelligenz fehlt noch
„Sprache wird zunehmend von Systemen verstanden. Ob das die Zukunft der Mensch-Maschine-Interaktion ist, lässt sich schwer sagen, vor allem weil dazu noch einige Schritte notwendig sind - etwa in Hinblick auf soziale Aspekte“, erklärte jüngst Stephan Schlögl, Assistant Professor am Management Center Innsbruck‎ (MCI). Alexa und Co. würden uns zwar bereits in zahlreichen Bereichen des Alltags begegnen. „Was ihnen in der Regel jedoch fehlt, ist sogenannte soziale Intelligenz - eine Anzahl von menschlichen Charakteristiken an denen sich die Technologie bisweilen noch die Zähne ausbeißt“, konstatierte Schlögl.

Auch bei gängigen Sprachassistenten würden sich die Anwender schon im Vorfeld die Befehle überlegen. Zuerst gebe es beim Ausprobieren einen „Wow-Effekt“, sehr schnell neige man aber zur Befehlsform, weil das kürzer und einfacher sei: „Alexa, mach das!“ Mit einem Menschen würde man nicht so sprechen. „Das ist ein sozialwissenschaftlich interessanter Aspekt, dass es anders ist mit einer Maschine zu sprechen als mit einem Menschen und wahrscheinlich immer sein wird“, so Schlögl, der derzeit den Aspekt der sozialen Intelligenz untersucht.

Auch die Versuche von Gross haben gezeigt, dass sich Menschen, wenn sie mit Maschinen zu tun haben, anders verhalten und sich nicht so sehr als Einheit sehen. Bei der Mensch-Mensch-Interaktion sei oft gesagt worden: „Jetzt nehmen wir das und legen es dorthin.“ Bei der Mensch-Roboter-Interaktion hätten die Personen nur die „Ich“-Form verwendet, so Gross: „Das muss man noch weiter untersuchen. Aber die Tendenz geht in die Richtung, dass man sich mit einem Roboter nicht so leicht verbrüdert wie mit einem Menschen.“

Zu hohe Erwartungen
Unterm Strich warnen die Experten vor zu großen Erwartungen. „Trotz Künstlicher Intelligenzen und Co. sind wir vom Sprachenverstehen noch weit entfernt“, ist Gross überzeugt. Wenn man den Kontext einschränke, so wie Google das mit Duplex gemacht habe, dann könne man relativ weit kommen. „Wenn man den Kontext offen lässt, dann sehe ich keine großen Sprünge in der Entwicklung, es bleibt Knochenarbeit“, warnte die Expertin vor einem überzeichneten Bild in der Öffentlichkeit.

„Sowohl bei den Laien als auch in der Industrie sind die Erwartungen oft naiv. Die Möglichkeiten werden deutlich überschätzt“, stimmte Budin zu. Die maschinelle Übersetzung habe zwar in den vergangenen Jahren große Fortschritte gemacht, damit sei aber nicht automatisch eine große Geldersparnis verbunden - wohl aber eine Beschleunigung und eine Verbesserung der Qualität. „Es gibt einen Return on Investment nach ein paar Jahren. Aber sofort alles gratis und perfekt, das gibt es auch weiterhin nicht.“

Sehr gut funktionieren würde die maschinelle Übersetzung beispielsweise bei Bedienungsanleitungen oder anderen fachlichen Gebrauchstexten. Hier sei die Fachterminologie schon in Datenbanken vorhanden. An einer Vor- und Nachbearbeitung komme man dennoch nicht vorbei. Das andere Extrembeispiel sei das Gedicht. „Ein Gedicht maschinell übersetzen zu lassen, wird auch weiterhin Utopie bleiben. Davon sind wir noch meilenweit entfernt“, ortet der Experte noch viel Arbeit für Sprachforscher.