Irgendwo mitten im Internet

Sprechen wir über Sprachassistenten, Teil 1: Die Geschichte der Spracherkennung.

gepostet von am

Siri, Google Assistant, Alexa, Bixby, Cortana – die lustige Riege der SciFi-würdigen Namen ist in Form von Sprachassistenten aus vielen Haushalten und Hosentaschen nicht mehr wegzudenken. Der Markt wächst stetig, Statista prognostiziert 2019 geräteübergreifend gut 1,4 Milliarden Nutzer weltweit. Spätestens mit der Vorstellung von Amazons smarter Mikrowelle mit Sprachsteuerung war klar für mich: Es ist Zeit für einen Blick auf all things speech recognition.

Roboter-Film-Bösewichte montiert auf gängige Sprachassistenten
Dalek Home, glad-iOS und ECHO-9000: Nicht zuletzt aufgrund von Sicherheitsbedenken bleibt bei den Sprachassistenten eine gewisse Restskepsis. Montage: D. Martin.

Von der Tonaufnahme zur Sprachsynthese

Tatsächlich ist es ist knifflig, die Entstehung der digitalen Spracherkennung und aller ihrer Folgen an einem spezifischen historischen Ereignis festzumachen. Doch beginnen wir ganz am Anfang: Bevor man Sprachbefehle parsen und selber reproduzieren kann, ist das Verständnis erforderlich, was Sprache überhaupt ausmacht, wie sie aufgebaut ist. Doch bevor man sie in ihre Details zerlegen kann, muss man sie erst einmal aufnehmen. Und das faszinierende Bestreben, Sprache festzuhalten und bei Bedarf wiederzugeben, geht schon weit ins vordigitale Zeitalter zurück. Bereits 1877 präsentierte Thomas Alva Edison den Phonograph – im Patent Nr. US200521 A als “Sprechmaschine” bezeichnet – nach einem Konzept, dass zuerst über das Grammophon und schließlich die Schallplatte bis heute erhalten bleiben sollte, zumindest als Nische für audiophile Hipster oder in der Raumfahrt. Bereits in den 1920er-Jahren lief die elektrische Ära der Tonaufnahme der mechanischen ihren Rang ab, mit integrierten elektrisch verstärkten Systemen, die allerdings nach wie vor sehr abhängig von einem fehlerfreien Trägermedium waren. Schallplatte, ick hör dir knacksen.

Alle Augen auf Audrey

In diese zweite Phase der Tonaufnahme fiel dann tatsächlich auch schon der erste große Schritt in Richtung Spracherkennung. Gestatten: Audrey, 1952 von drei Forschern der amerikanischen Bell Labs entwickelt. Audreys (einzige) Spezialität: Das Erkennen von ihr diktierten Ziffern – damit verfügte sie immerhin über Vokabular von zehn Begriffen (null bis neun). Dazu erkannte das Gerät feste Formanten (die phonetisch signifikanten Ausprägungen einzelner Worte) als Energiespitzen in den Frequenzbereichen der Ziffern – allerdings wirklich zuverlässig nur die von einer einzigen gesprochenen, ihr zuvor antrainierten Stimme. Bei anderen Sprechern fiel die Erkennungsrate auf 60 % ab. Angesichts der natursprachlichen Komplexität leuchtet dabei ein, warum die Forschung ihre ersten Schritte – ach, Krabbelversuche – auf dem Gebiet der klaren Zahlensystematik startete. Die ersten richtigen und vor allem öffentlichkeitswirksamen Schritte folgten dann gut ein Jahrzehnt später.

IBM's Spracherkennungsrechner Shoebox

Ein guter Zuhörer: IBMs Shoebox. Bild: IBM.com.

Es rappelt im Schuhkarton

Diese gingen auf das Konto von IBM: Die Shoebox, eine kleine Sammlung von Schaltkreisen, Dioden, Widerständen, Lämpchen und einem Mikrofon, konnte zusätzlich zu Ziffern Befehle für alle Grundrechenarten verstehen und ausführen. Das Gerät wurde auf der Weltausstellung 1962 erstmals vorgeführt und war eher eine Machbarkeitsstudie als ein handfester Prototyp. Dennoch zeichneten sich damit schon Anwendungen wie die Telefonwahl per Stimme und automatische Rufumleitungen ab. Auch international gewann das Konzept der Spracherkennung und -eingabe damit langsam Traktion. Die USA, Japan, England und die UDSSR forschten alle an eigener Hardware. Auch die Trennung von einzelnen Vokalen und Konsonanten wurde langsam möglich – durchaus eine Errungenschaft im Angesicht des noch verhältnismäßig primitiven Forschungsstands, auf dem sich die Computertechnik selbst noch befand.

Die 70er: Schlaghosen, Stones & Spracherkennung

Wie leider so oft in Forschungsfragen: Es bewegt sich erst dann wirklich etwas, wenn Geld vom Militär ins Spiel kommt. So auch hier: Die US-amerikanische DARPA, der Forschungsarm des Pentagons, bezuschusste das Speech Understanding Research Programme. Aus diesem ging 1976 schließlich die Harpy-Spracherkennung hervor. Die etwa 1000 Wörter samt einiger Phrasen, die sie interpretieren konnte, entsprachen ungefähr dem Wortschatz eines durchschnittlichen Dreijährigen. Doch wie lässt sich der große Sprung erklären? Die Forschung löste sich für Harpy von der simplen Mustererkennung von Formanten und Frequenzbündeln und brachte ein strukturelles Verständnis von Sprache ins Spiel. Mit der Pfadsuche nutzte Harpy einen statistischen Ansatz, der die erste Interpretation mit dem wahrscheinlichsten und besten Pfad der Syntax verglich und die Interpretation zugunsten anderer Alternativen verwarf, wenn sie sich zu weit von dem erwarteten Optimal-Satz entfernte.

Dieses System war damit auch das erste, das sich wirklich über verschiedene Dialekte und Sprecher skalieren ließ – naturgemäß eine große Hürde für die Spracherkennung. Man kennt es ja: Selbst als menschlicher Zuhörer fällt einem das Verständnis rheinländelnder Ureinwohner doch oft schwerer als gedacht. Das Sprachsystem “Deutsch” stellt zwar in der Theorie für beide Seiten die gleichen Regeln bereit – Stichwort Sprachkompetenz, für eine Interpretation kommen dann aber noch Faktoren der Sprechperformanz wie Stimmfrequenzen, Betonungen, fließende Übergänge, dialektbedingte Lautausprägungen, und viele weitere hinzu. Ganz zu schweigen von bedeutungsveränderten Metaebenen wie Humor oder Ironie.

So you have things like ‘euthanasia’, which could be ‘youth in Asia’. Or if you say ‘Give me a new display’ it could be understood as ‘give me a nudist play’. (Alexander Waibel, Miterfinder von Harpy an der Carnegie Mellon University)

Stochastische Linguistik? Linguistische Stochastik?

Schaubild zur Funktionsweise der Hidden Markov Modelle

Beispiel eines Hidden Markov Modells: Ein Gefangener im Kerker schließt aus dem Zustand der Schuhe des Wärters auf das Wetter. Ersterer ist die beobachtete Emission, das wirkliche Wetter der versteckte Zustand, den es herzuleiten gilt. Bild: Wikimedia Commons.

Trotz dieses frühen statistischen Ansatzes war das Template-Matching bis in die 90er-Jahre selbst für die ausgefeiltesten Geräte der Weg der Wahl, um Sprache zu erkennen. Aus Schallwellen mache man digitalen Code, dann speichere man Muster für spezifische relevante Wörter, vergleiche die Muster aus späteren Eingaben mit den Proto-Mustern und zack – schon wird das Wort wiedererkannt. Einzelne Worte zu erkennen ist allerdings weder besonders effizient noch besonders zielführend, muss sich der Nutzer doch an eine neue künstliche Syntax gewöhnen, um auch nur rudimentäre Ziele zu verwirklichen. In den 80er-Jahren kam dann ein neuer stochastischer Stern am Firmament der Spracherkennung auf: Das Hidden Markov Modell (HMM). Mit seiner Anwendung in diesem Feld wurde es möglich, aufgrund verschiedener erkannter “Emissionen” – in diesem Fall kurzzeitiger Frequenzspektren – auf die Wahrscheinlichkeit der verborgenen (engl. hidden) Ausgangszustände zu schließen, also hier auf tatsächlich vom Sprecher geäußerte Phoneme respektive das komplette Wort. Umgekehrt hilft die stochastische Herangehensweise auch, noch folgende Teile einer Äußerung vorherzusagen. Das erhöhte die Fähigkeiten der Spracherkennung insgesamt von ein paar Hundert erkennbaren Wörtern auf mehrere Tausend – theoretisch nur abhängig von der Rechenleistung und ohne Grenze nach oben.

So verwundert es nicht, dass die Kombination aus Frequenzmustererkennung und HMM eine nachhaltige Säule der Spracherkennung werden sollte. Die nächsten zwei Jahrzehnte behielt man diesen Ansatz bei. Schon bald darauf verbreiteten sich so die ersten kommerziellen Produkte bis in die Haushalte, etwa in Form von Spielzeug. Aber ob die Spracherkennung nun ein, zehn, hundert, tausend oder n Wörter verstand, ein Hindernis war noch lange nicht aus dem Weg geräumt: Jedes. Einzelne. Wort. Musste. Mit. Pause. Dazwischen. Diktiert. Werden.

Von “Fus... Ro... Dah…” zu “Fus Ro Dah!”

Doch zum Glück waren die 90er-Jahre nicht mehr fern und damit eine Spracherkennung für die Massen mittelfristig absehbar. Schnellere Prozessoren, technologisch sukzessive gefestigte Strukturen, damit einhergehende Preissenkungen, die weitere Perfektion der HMMs: Die Zeichen standen gut. Und das amerikanische Unternehmen Dragon erkannte sie. Dr. James Baker, der spätere Präsident des Unternehmens, hatte dafür bereits 1975 den Grundstein mit einem Prototypen gelegt. Die darauf basierende Software, DragonDictate, erforderte allerdings genau wie die Konkurrenz eine durch Pausen getrennte Spracheingabe. Zudem kostete sie etwa 9.000 USD und war so realistischerweise nicht für ein breites Publikum verfügbar. Als Maßstab: Inflationsbereinigt entspräche diese Kaufkraft heute mehr als 15.000 Euro.

Im Juni 1997 veröffentlichte Dragon schließlich Version 1.0 von NaturallySpeaking, der ersten verfügbaren Software, die ein pausenfreies Diktat ermöglichte. Auch für den etwas besser gestellten Otto Normal war sie mit 695 USD pro Lizenz einigermaßen erschwinglich, wenn auch nicht massenmarkttauglich. Auch zeitlich war noch eine ordentliche Investition nötig: Bevor man sein Diktat mit maximal 100 Wörtern pro Minute starten konnte, genehmigte sich die Software ein 45-minütiges Sprechertraining. Mit “OK Google!” – “OK Google!” – “Hey Google!” - “Hey Google!” war es noch nicht getan.

Nashornstatuen auf Amazon zur Veranschaulichung der Kaufkraft

Dinge, die man heute für die Kaufkraft eines DragonDictate bekäme: Drei lebensgroße Nashorn-Statuen. Screenshot von Amazon.de.

Die Schwächen der Spracherkennung hautnah oder: Servicehotlines.

Wie uns die Geschichte lehrt, blieb die Technik längst nicht bei Diktierfunktionen stehen. 1996 erblickte VAL von BellSouth das Licht der Welt respektive das Innere der US-amerikanischen Telefonleitungen. Heute verhasst, damals ein technologisches Wunder, informierte VAL Anrufer aufgrund der erkannten Befehle über verschiedene, dem jeweiligen Geschäft eigene Themenfelder und vermittelte Anrufer an die richtige Dienststelle. Und ebnete damit den Weg für einen immer weiter nach hinten gelagerten menschlichen telefonischen Kundenservice.

Der Zenith schien vorerst erreicht: In den 00er-Jahren pendelte sich die sprecherunabhängige Spracherkennung bei einer Erkennungsrate irgendwo um die 80 % ein, signifikante Fortschritte zeichneten sich nicht mehr ab. Die Anwendungsfälle waren in Zeiten des früh-millennialen Internets noch recht limitiert, die Erkennung entlang der technischen Möglichkeiten schon einigermaßen ausgereift und Themen wie IoT, Mitmachinternet, Prosuming, Sprachassistenten und Cloud-RZs noch Zukunftsmusik. Die Technologie tippte zwar rein statistisch mit einem gewissen Erfolg auf die geäußerten Worte, verstand aber nicht die sinnstiftenden Mechanismen und Zusammenhänge dahinter. Daraus folgt aber auch: Das pubertierende Internet stellte nicht nur immer neue Herausforderungen an den Sprachhorizont der Technologien, sondern brachte auch einige der dazu benötigten Lösungsansätze gleich und andere zumindest sukzessive mit sich.

Mit diesen will ich mich im zweiten Teil der Reihe auseinandersetzen: Wie entstand aus diesen Entwicklungen das neue Konzept “Sprachassistent”? Damit einher geht auch ein Blick auf die Geschichte der digitalen Sprachsynthese. Denn alles Verstehen der Welt würde bei den smarten Helfern nicht viel nutzen, wenn ihnen die Stimme fehlte, uns zu antworten. Weiterhin werfen wir einen Blick auf die aktuelle Marktsituation, oder anders: Von welchem Tech-Konglomerat dürfen wir als nächstes eine smarte Mikrowelle erwarten? Und, nicht minder interessant, was kommt als nächstes? Denn eins ist sicher: Mikrowellen sind erst der Anfang.