Willkommen
|
Facebook Twitter Google Plus
21.12.2014 - 05:43

Von IBMs Shoebox bis Siri: 50 Jahre Spracherkennung

20.04.2012, 15:19
Von IBMs Shoebox bis Siri: 50 Jahre Spracherkennung (Bild: thinkstockphotos.de, krone.at-Grafik)
Foto: thinkstockphotos.de, krone.at-Grafik
"Siri, brauche ich morgen einen Regenschirm?" Mit dieser Frage können sich Besitzer eines iPhone 4S nach den Wetteraussichten erkundigen – und müssen dafür nicht einmal Hand an das Apple- Smartphone legen. Ermöglicht wird dies durch moderne Spracherkennungssoftware, deren Anfänge inzwischen 50 Jahre zurückliegen. In Zukunft, so die Vision, sollen Siri und Co. klassische Eingabemethoden gänzlich überflüssig machen.

Der Wortschatz des ersten Spracherkennungssystems war noch sehr begrenzt: Die "Shoebox"  des Computerkonzerns IBM erkannte gerade einmal 16 Wörter. Es waren die Zahlen von null bis neun sowie die mathematischen Anweisungen "minus", "plus", "subtotal", "total", "false" und "of". Erstmals der breiten Öffentlichkeit vorgestellt wurde der IBM- Rechner in der Größe einer Schuhschachtel vor 50 Jahren am 21. April 1962 auf der Weltausstellung in Seattle.

Im Schatten der futuristischen Space Needle sah das staunende Publikum, wie die Maschine eine gesprochene Rechenaufgabe, bestehend aus Addition und Subtraktion, auf Englisch verstehen und die korrekte Antwort ausspucken konnte. Zu diesem Zeitpunkt war IBM noch fast 20 Jahre von der Entwicklung des ersten Personal Computers entfernt.

Nimmt man es ganz genau, ist die maschinelle Spracherkennung sogar noch zehn Jahre älter: 1952 entwickelten die amerikanischen Bell Laboratories das System "Audrey", das einzelne Zahlen erkennen sollte. "Man musste zwischen den Zahlen aber lange Pausen machen, damit Audrey die Ziffern überhaupt verstehen konnte", sagt Professor Hans Uszkoreit vom Deutschen Forschungszentrum für Künstliche Intelligenz in Berlin.

Aus Worten wurden Wortfolgen

Der nächste Meilenstein der Spracherkennung wurde in den 70er- Jahren an der Carnegie Mellon University mit massiver Förderung durch das US- Verteidigungsministerium und seiner Agentur DARPA erzielt. "Harpy" beherrschte mit gut 1.000 Worten den Sprachschatz eines Dreijährigen. Die nächste Entwicklungsstufe wurde erst weitere zehn Jahre später erreicht: In den 80er- Jahren ließen Forscher ihr System nun nicht mehr einzelne gesprochene Wörter analysieren, sondern betrachteten ganz Wortfolgen.

Auf der Basis des nach dem russischen Mathematiker Andrej Markov benannten "Hidden Markov Model" wurde dabei berechnet, wie hoch die statistische Wahrscheinlichkeit ist, dass ein bestimmtes Wort einem anderen folgt. So können die Systeme ähnlich klingende Sätze besser unterscheiden. "Die Wortfolge 'Ich putze mir die Nase' ist eben wahrscheinlicher als 'Ich putze mir die Vase'", erläutert Experte Uszkoreit.

Spracherkennung schafft Sprung auf den PC

In den 90er- Jahren erreichte die Spracherkennung schließlich den Personal Computer: Damals konkurrierten IBM, Dragon, Philips, der belgische Spezialist Lernout & Hauspie und Microsoft (siehe Infobox) mit ihren Programmpaketen zur Spracherkennung um die Kunden.

Nach dem Platzen der "Internet- Blase" im Jahr 2000 folgte am Markt eine schwierige Konsolidierungsphase. Lernout & Hauspie kaufte im Jahr 2000 Dragon Systems, ein Jahr später übernahm Scansoft die Spracherkennungstechnologie der Belgier inklusive des Markennamens Dragon Naturally Speaking.

Im September 2005 wiederum übernahm Scansoft die Firma Nuance und benannte sich dann in Nuance Communications um. In den vergangenen zehn Jahren übernahm Nuance wiederum eine lange Liste von kleineren Spezialfirmen. Dort landeten auch die Spracherkennungstechnologien von IBM und Philips.

Den PC- und Smartphone- Programmen von Nuance bescheinigen Experten bei standardisierten Diktieraufgaben, wie sie in einer Rechtsanwaltskanzlei oder Arztpraxis anfallen, eine äußerst hohe Trefferquote. Bei kreativen Texten lohnt dagegen der Einsatz der Diktierprogramme wegen der höheren Fehlerquote nicht immer.

Sprachassistent zum Mitnehmen

Neue Bewegung in die Branche brachten im vergangenen Jahr Sprachverarbeitungssysteme wie Siri von Apple, das auf dem iPhone 4S die Rolle eines persönlichen digitalen Assistenten einnimmt. Siri geht auf ein Forschungsprojekt zurück, das von der US- Militärbehörde DARPA finanziert wurde und schließlich in der Gründung einer eigenständigen Firma resultierte, die sich dann Apple im Jahr 2010 für schätzungsweise 200 Millionen Dollar einverleibte.

Bei Siri werden die Sprachaufzeichnungen über das Mobilfunknetz an einen Server übertragen, dort analysiert und dann die passende Antwort an das iPhone zurückgesendet. Ähnlich funktionieren auch Spracherkennungssysteme von Google und Microsoft, die mit kleinen Mikrofon- Symbolen im Browser dem Web das Zuhören beigebracht haben.

Auch hier landen die gesprochenen Daten auf Servern in den USA und tragen dazu bei, dass die Erkennungsquote der Systeme ständig verbessert werden kann. Letztlich arbeiten aber auch die ausgeklügelten Systeme von Apple, Google und Microsoft nach den statistischen Analysemethoden der 90er- Jahre.

Nächster Schritt: Semantische Spracherkennung

Insbesondere bei Google werken Forscher aber schon an der nächsten Generation der Spracherkennung, bei der komplette Sätze nach ihrer Bedeutung untersucht werden. "Es ist kein Zufall, dass Google intern den Bereich 'Suche' in 'Knowledge' (Wissen) umbenannt hat", sagt Spracherkennungsexperte Uszkoreit.

Wenn Spracherkennungssysteme die Bedeutung der Worte und Sätze lernen, wird vielleicht auch die Vision Wirklichkeit, die Microsoft- Begründer Bill Gates in seinem Buch "Der Weg nach vorn" schon für das Jahr 2007 vorausgesagt hatte: Nämlich dass man sich mit Maschinen fast so natürlich unterhalten kann wie mit Menschen - und die Tastatur eines Tages überflüssig wird.

AG/red
Drucken
Werbung
Kommentare  
Kommentare sortieren nach:
km_num_com
km_datum_formatiert_com
von km_nickname_text_com  
km_text_com
km_kmcom_js_begin_com kmcom_add_trigger("readcomplete","kmcom_set_notify_status(Object({'object_id':km_object_id_com}))"); km_kmcom_js_end_com
km_kmcom_js_begin_com kmcom_add_trigger("readcomplete","kmcom_set_delete_status(Object({'object_id':km_object_id_com, 'status':km_status_com}))"); km_kmcom_js_end_com
Antworten sortieren nach:
km_antworten_com
km_datum_formatiert_com
von km_nickname_text_com  
km_text_com
km_kmcom_js_begin_com kmcom_add_trigger("readcomplete","kmcom_set_notify_status(Object({'object_id':km_object_id_com}))"); km_kmcom_js_end_com
km_kmcom_js_begin_com kmcom_add_trigger("readcomplete","kmcom_set_delete_status(Object({'object_id':km_object_id_com, 'status':km_status_com}))"); km_kmcom_js_end_com
User-Beiträge geben nicht notwendigerweise die Meinung der Redaktion bzw. von Krone Multimedia (KMM) wieder. KMM behält sich insbesondere vor, gegen geltendes Recht verstoßende, den guten Sitten oder der Netiquette widersprechende bzw. dem Ansehen von KMM zuwiderlaufende Beiträge zu löschen, diesbezüglichen Schadenersatz gegenüber dem betreffenden User geltend zu machen, die Nutzer-Daten zu Zwecken der Rechtsverfolgung zu verwenden und strafrechtlich relevante Beiträge zur Anzeige zu bringen (siehe auch AGB).
Werbung
Werbung
Meistgelesen
Meistkommentiert
Werbung
Angaben gem ECG und MedienGesetz: Medieninhaber, Hersteller und Herausgeber bzw. Diensteanbieter
Krone Multimedia GmbH & Co KG (FBN 189730s; HG Wien) Internetdienste; Muthgasse 2, 1190 Wien
Krone Multimedia © 2014 krone.at | Impressum