01.03.2019 08:54 |

Kostenlos für alle

Mozilla stellt weltgrößten Sprachdatensatz bereit

Bisher dominieren die großen Internetkonzerne wie Google, Microsoft, IBM, Amazon und Apple den Markt für Spracherkennung. Wichtiger Player ist außerdem das Unternehmen Nuance, dessen Technik hinter der Spracherkennung von Apples Siri steckt. Mozilla, bekannt für seinen quelloffenen Firefox-Browser, will das ändern und hat daher nun den größten Datensatz menschlicher Stimmen verfügbar gemacht, der komplett von Freiwilligen eingesprochen wurde. 

Mit dem Projekt „Common Voice“ soll der weltweit vielfältigste Sprachdatensatz erstellt werden, der für die Entwicklung von Sprachtechnologien optimiert ist. Mozilla will damit zu einem „vielfältigen und innovativen Ökosystem an Sprachtechnologien“ beitragen und vor allem kleineren Herstellern und Crowdfunding-Projekten ohne Lizenzgebühren ermöglichen, eigene Spracherkennungssysteme zu entwickeln.

Der Datensatz von Mozilla summiert sich auf fast 1400 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden und umfasst nach Angaben des Unternehmens 18 verschiedene Sprachen, darunter Englisch, Französisch, Deutsch und Mandarin (traditionell), aber auch beispielsweise Walisisch und Kabyle, eine algerische Berbersprache.

Die von Mozilla eingesammelten Daten stehen unter der „CC0“-Lizenz zur Verfügung. Das ist die freizügigste Variante der Creative-Commons-Lizenzen („No rights reserved“). Die Projekt-Teilnehmer haben dabei freiwillig auch Metadaten wie Alter, Geschlecht und Akzent angeben. „Damit werden gemeinsam mit ihren Aufzeichnungen weitere Informationen gespeichert, mit denen Sprach-Engines noch besser trainiert werden können“, heißt es in dem Blog-Eintrag von Mozilla.

 krone.at
krone.at
Kommentare
Eingeloggt als 
Nicht der richtige User? Logout

Willkommen in unserer Community! Eingehende Beiträge werden geprüft und anschließend veröffentlicht. Bitte achten Sie auf Einhaltung unserer Netiquette und AGB. Für ausführliche Diskussionen steht Ihnen ebenso das krone.at-Forum zur Verfügung.

User-Beiträge geben nicht notwendigerweise die Meinung des Betreibers/der Redaktion bzw. von Krone Multimedia (KMM) wieder. In diesem Sinne distanziert sich die Redaktion/der Betreiber von den Inhalten in diesem Diskussionsforum. KMM behält sich insbesondere vor, gegen geltendes Recht verstoßende, den guten Sitten oder der Netiquette widersprechende bzw. dem Ansehen von KMM zuwiderlaufende Beiträge zu löschen, diesbezüglichen Schadenersatz gegenüber dem betreffenden User geltend zu machen, die Nutzer-Daten zu Zwecken der Rechtsverfolgung zu verwenden und strafrechtlich relevante Beiträge zur Anzeige zu bringen (siehe auch AGB).

Produktvergleiche

Alle Produkte sehen