Sprich mit mir!

Von IBMs Shoebox bis Siri: 50 Jahre Spracherkennung

Digital
20.04.2012 15:19
"Siri, brauche ich morgen einen Regenschirm?" Mit dieser Frage können sich Besitzer eines iPhone 4S nach den Wetteraussichten erkundigen – und müssen dafür nicht einmal Hand an das Apple-Smartphone legen. Ermöglicht wird dies durch moderne Spracherkennungssoftware, deren Anfänge inzwischen 50 Jahre zurückliegen. In Zukunft, so die Vision, sollen Siri und Co. klassische Eingabemethoden gänzlich überflüssig machen.

Der Wortschatz des ersten Spracherkennungssystems war noch sehr begrenzt: Die "Shoebox" des Computerkonzerns IBM erkannte gerade einmal 16 Wörter. Es waren die Zahlen von null bis neun sowie die mathematischen Anweisungen "minus", "plus", "subtotal", "total", "false" und "of". Erstmals der breiten Öffentlichkeit vorgestellt wurde der IBM-Rechner in der Größe einer Schuhschachtel vor 50 Jahren am 21. April 1962 auf der Weltausstellung in Seattle.

Im Schatten der futuristischen Space Needle sah das staunende Publikum, wie die Maschine eine gesprochene Rechenaufgabe, bestehend aus Addition und Subtraktion, auf Englisch verstehen und die korrekte Antwort ausspucken konnte. Zu diesem Zeitpunkt war IBM noch fast 20 Jahre von der Entwicklung des ersten Personal Computers entfernt.

Nimmt man es ganz genau, ist die maschinelle Spracherkennung sogar noch zehn Jahre älter: 1952 entwickelten die amerikanischen Bell Laboratories das System "Audrey", das einzelne Zahlen erkennen sollte. "Man musste zwischen den Zahlen aber lange Pausen machen, damit Audrey die Ziffern überhaupt verstehen konnte", sagt Professor Hans Uszkoreit vom Deutschen Forschungszentrum für Künstliche Intelligenz in Berlin.

Aus Worten wurden Wortfolgen
Der nächste Meilenstein der Spracherkennung wurde in den 70er-Jahren an der Carnegie Mellon University mit massiver Förderung durch das US-Verteidigungsministerium und seiner Agentur DARPA erzielt. "Harpy" beherrschte mit gut 1.000 Worten den Sprachschatz eines Dreijährigen. Die nächste Entwicklungsstufe wurde erst weitere zehn Jahre später erreicht: In den 80er-Jahren ließen Forscher ihr System nun nicht mehr einzelne gesprochene Wörter analysieren, sondern betrachteten ganz Wortfolgen.

Auf der Basis des nach dem russischen Mathematiker Andrej Markov benannten "Hidden Markov Model" wurde dabei berechnet, wie hoch die statistische Wahrscheinlichkeit ist, dass ein bestimmtes Wort einem anderen folgt. So können die Systeme ähnlich klingende Sätze besser unterscheiden. "Die Wortfolge 'Ich putze mir die Nase' ist eben wahrscheinlicher als 'Ich putze mir die Vase'", erläutert Experte Uszkoreit.

Spracherkennung schafft Sprung auf den PC
In den 90er-Jahren erreichte die Spracherkennung schließlich den Personal Computer: Damals konkurrierten IBM, Dragon, Philips, der belgische Spezialist Lernout & Hauspie und Microsoft (siehe Infobox) mit ihren Programmpaketen zur Spracherkennung um die Kunden.

Nach dem Platzen der "Internet-Blase" im Jahr 2000 folgte am Markt eine schwierige Konsolidierungsphase. Lernout & Hauspie kaufte im Jahr 2000 Dragon Systems, ein Jahr später übernahm Scansoft die Spracherkennungstechnologie der Belgier inklusive des Markennamens Dragon Naturally Speaking.

Im September 2005 wiederum übernahm Scansoft die Firma Nuance und benannte sich dann in Nuance Communications um. In den vergangenen zehn Jahren übernahm Nuance wiederum eine lange Liste von kleineren Spezialfirmen. Dort landeten auch die Spracherkennungstechnologien von IBM und Philips.

Den PC- und Smartphone-Programmen von Nuance bescheinigen Experten bei standardisierten Diktieraufgaben, wie sie in einer Rechtsanwaltskanzlei oder Arztpraxis anfallen, eine äußerst hohe Trefferquote. Bei kreativen Texten lohnt dagegen der Einsatz der Diktierprogramme wegen der höheren Fehlerquote nicht immer.

Sprachassistent zum Mitnehmen
Neue Bewegung in die Branche brachten im vergangenen Jahr Sprachverarbeitungssysteme wie Siri von Apple, das auf dem iPhone 4S die Rolle eines persönlichen digitalen Assistenten einnimmt. Siri geht auf ein Forschungsprojekt zurück, das von der US-Militärbehörde DARPA finanziert wurde und schließlich in der Gründung einer eigenständigen Firma resultierte, die sich dann Apple im Jahr 2010 für schätzungsweise 200 Millionen Dollar einverleibte.

Bei Siri werden die Sprachaufzeichnungen über das Mobilfunknetz an einen Server übertragen, dort analysiert und dann die passende Antwort an das iPhone zurückgesendet. Ähnlich funktionieren auch Spracherkennungssysteme von Google und Microsoft, die mit kleinen Mikrofon-Symbolen im Browser dem Web das Zuhören beigebracht haben.

Auch hier landen die gesprochenen Daten auf Servern in den USA und tragen dazu bei, dass die Erkennungsquote der Systeme ständig verbessert werden kann. Letztlich arbeiten aber auch die ausgeklügelten Systeme von Apple, Google und Microsoft nach den statistischen Analysemethoden der 90er-Jahre.

Nächster Schritt: Semantische Spracherkennung
Insbesondere bei Google werken Forscher aber schon an der nächsten Generation der Spracherkennung, bei der komplette Sätze nach ihrer Bedeutung untersucht werden. "Es ist kein Zufall, dass Google intern den Bereich 'Suche' in 'Knowledge' (Wissen) umbenannt hat", sagt Spracherkennungsexperte Uszkoreit.

Wenn Spracherkennungssysteme die Bedeutung der Worte und Sätze lernen, wird vielleicht auch die Vision Wirklichkeit, die Microsoft-Begründer Bill Gates in seinem Buch "Der Weg nach vorn" schon für das Jahr 2007 vorausgesagt hatte: Nämlich dass man sich mit Maschinen fast so natürlich unterhalten kann wie mit Menschen - und die Tastatur eines Tages überflüssig wird.

Loading...
00:00 / 00:00
play_arrow
close
expand_more
Loading...
replay_10
skip_previous
play_arrow
skip_next
forward_10
00:00
00:00
1.0x Geschwindigkeit
explore
Neue "Stories" entdecken
Beta
Loading
Kommentare

Da dieser Artikel älter als 18 Monate ist, ist zum jetzigen Zeitpunkt kein Kommentieren mehr möglich.

Wir laden Sie ein, bei einer aktuelleren themenrelevanten Story mitzudiskutieren: Themenübersicht.

Bei Fragen können Sie sich gern an das Community-Team per Mail an forum@krone.at wenden.

(Bild: krone.at)
(Bild: krone.at)
Kreuzworträtsel (Bild: krone.at)
(Bild: krone.at)



Kostenlose Spiele