Irgendwo mitten im Internet

“OK Google – Schreibe Teil 2 des Blogartikels über Sprachassistenten!”

gepostet von am

In Runde 1 unseres Blog-Zweiteilers haben wir die Geschichte der Spracherkennung aufgerollt und sie aus technologischer und konzeptioneller Richtung betrachtet. Doch wen interessiert die Vergangenheit? Siri und Alexa sprechen im Jetzt mit uns, etwa aus Mikrowellen! Wir werfen einen Blick auf die aktuelle Marktsituation der Smart Assistants, fragen uns zwischendurch, warum diese überhaupt zu uns sprechen und konsultieren abschließend unsere smarte Kristallkugel für etwas Trend-Wahrsagerei.

Screenshots von gängigen Sprachassistenten auf Smartphones
Sie wollen doch nur helfen: Drei beispielhafte Sprachassistenten bieten ihre Dienste feil. Von o. l. im Uhrzeigersinn: Cortana, Google Assistant, Siri. Bild: D. Martin.

Doch bevor wir loslegen ein kurzes Recap von Teil 1: Bereits 1952 erkannte Rechenmaschine Audrey die Ziffern 0 bis 9. Zehn Jahre später hatte IBMs Shoebox bereits alle Grundrechenarten auf Zuruf seines “Trainers” auf dem Kasten. Die Harpy der DARPA verstand Mitte der 1970er bereits über 1.000 Wörter in vorgegebener Syntax. In den 80er-Jahren bedeutete das neue stochastische Konzept des Hidden Markov Modells (HMM) drastisch erhöhte Erkennungsraten, indem es über erkannte Emissionen (in diesem Fall Laute) auf verborgene Zustände (also tatsächlich geäußerte Worte und damit die Intention des Sprechers) schloss. Damit ist es bis heute der übliche modus operandi der Spracherkennung. Die Popkultur feierte das Konzept mittlerweile in der SciFi (HAL-9000, KITT!) und mit sprechendem Spielzeug wie der Puppe Julie. In den 90er-Jahren macht das Unternehmen Dragon die lückenlose Spracheingabe mit relativ günstiger Diktiersoftware salonfähig (anfänglicher Kostenpunkt: einige Tausend USD), während man anderswo mit VAL die Welt um die erste volldigitale Telefonvermittlung bereicherte. Bis zur zweiten Hälfte der 00er-Jahre stagnierte die Technologie schließlich, in der Erkennungsrate gab es keine eklatanten Fortschritte mehr und die generelle Akzeptanz der Eingabemethode hielt sich stark in Grenzen. Und hier steigen wir ein.

Telefonat mit altem iPhone

"So große Handys braucht nun wirklich niemand, und dann auch noch diese nutzlose Spracheingabe." (Google Voice Search App fürs iPhone, Bild: New York Times)

Vom Gipfel der überzogenen Erwartungen ins Tal der Enttäuschungen

Das Jahr 2006: Windows Vista und Mac OS Tiger beherrschten den Desktop-Markt und auch die klassischen HIDs, Maus und Tastatur, klammerten sich starr an ihre Führungsposition. Egal ob bei Apple oder Microsoft, die Bordmittel zur Spracheingabe gestalteten sich überwiegend rudimentär. Auf die technologische Euphorie, die zuvor von Medien und Branchenexperten geschürt wurde, folgte Ernüchterung. Die Theorie war mit HMMs relativ ausgereift, in der Praxis mangelte es an Hardwarepower und Rohdaten. In ihrem Hype-Zyklus verließ die Technologie das Tal der Enttäuschung schließlich zwei Jahre später mit einem Knall, namentlich: dem Release von Googles Sprachsuche für das iPhone. Das war aus zwei Gründen besonders relevant. Erstens machte die verhältnismäßig geringe Bildschirmgröße der Fulltouch-Geräte die Eingabe in Ermangelung einer Hardwaretastatur mühsam – alternative Eingabemethoden mussten her. Und zweitens hatte Google zum Release-Zeitpunkt naturgemäß bereits eine beachtliche Cloud-Infrastruktur in Betrieb, auf die anspruchsvolle Berechnungen ausgelagert werden konnten. Die schiere Prozessorleistung allein wäre dabei allerdings ohne die gigantische Datenbasis nicht viel Wert gewesen, die man mit der steigenden Verbreitung von Hardware samt App ansammeln konnte. Zusätzlich nutzte man die Erkenntnisse, die sich aus den Milliarden von klassischen Suchanfragen und später auch durch die Integration in Chrome gewinnen ließen. Mit dem Sprung in die Cloud und die Verknüpfung der bis dahin noch voneinander isolierten Daten waren die größten Flaschenhälse der Spracherkennung aus dem Weg geräumt.

Maß man den Fortschritt im Wortschatz der Spracherkennung in den Jahrzehnten zuvor für gewöhnlich in dezimalen Größenordnungen (zehn wurden zu hundert wurden zu tausenden erkannten Wörtern), war diese Herangehensweise mit dem Aufstieg der cloudbasierten Systeme weit überholt. In englischer Sprache verstand Googles Sprachsuche Anfang der 2010er-Jahre bereits über 200 Milliarden Worte, Redewendungen und Konstruktionen, gelernt aus der rein praktisch genutzten Sprache in den Suchanfragen. Das Verständnis hatte ein neues Hoch erreicht. Was noch zu wünschen übrig ließ, waren die Antworten: Zwar waren bei Google die Ergebnisse der erwarteten Qualität entsprechend, deren Ausgabe allerdings noch weit von menschlicher Sprache entfernt – Microsoft Sam winkt Google an dieser Stelle hämisch aus dem Jahr 2000 zu. Und hier kommt Apple ins Spiel.

EXKURS: Sprachsynthese

Versuche, menschliche Sprache künstlich herzustellen, gibt’s seit gut 1.000 Jahren – die kolportierten Äußerungen fallen aber eher ins Reich der Legenden. Über derlei Magie sind wir mittlerweile hinweg: 1779 konnte Christian Kratzenstein mit seiner “Sprachorgel” über dem menschlichen Vokaltrakt nachgebildete Resonatoren fünf Vokale abbilden. Bis Ende des 19. Jahrhunderts blieb die Nachbildung der Sprechorgane der Weg der Wahl, danach widmete sich die Forschung der Simulation der Sprachakustik durch die Bündelung von Resonanzfrequenzen – bis in die 1990er-Jahre der technologische way to go. In den 1930ern synthetisierte man diese sogenannten Formanten erstmals elektrisch, Anfang der 50er-Jahre sogar erstmals mit erkennbaren Konsonanten. Mit dem Sprung ins Computerzeitalter lernten die Maschinen dann Anfang der 1960er das Singen, die Limitierungen der damaligen Hardware führte allerdings noch nicht zu bahnbrechenden Sprüngen.

Den Sprung in die Gegenwart schaffte die Sprachsynthese schließlich genau wie die Spracherkennung mit dem Einsatz des stochastischen Modells der HMMs, mit dessen Hilfe die jeweils wahrscheinlichsten Waveforms basierend auf 3 Faktoren (Vokaltrakt, Grundfrequenz und Prosodie) generiert werden – auch damit wird wieder fleißig gesungen. Die Zukunft gehört dagegen neuronalen Netzen und dem Deep Learning: Durch das umfassende Training mit Sprachdaten kommt man natürlicher Sprache schon wirklich nah (Tacotron von Google und Deep Voice von Baidu), auch wenn es noch so manche Hürde zu überwinden gilt: Sei es die korrekte Unterscheidung verschiedener Betonungen bei gleicher Schreibweise, die Übertragung von Emotionen etwa durch verschiedene Merkmale, die über reine Lautäußerungen hinaus gehen (s.g. Prosodie), oder die Frage, wie man welchen Worten eindeutig welche Phoneme zuweist. Es lohnt sich also, die Ohren offen zu halten!

Siri, antworten Sie!

Mit Siri stellte man 2011 den ersten mehr oder weniger alltagstauglichen virtuellen Sprachassistenten vor, der nicht nur zuhörte und verstand, sondern auch antwortete. Mit einigem Vorlauf war Siri bereits seit 2007 und damit in etwa parallel zur Sprachsuche von Google in Entwicklung, damals noch als Produkt eines sehr erfolgreichen Start-ups. Im Gegensatz zur Konkurrenz aus Mountain View konnte man in Cupertino allerdings (noch) nicht auf einen weiten Fundus aus Suchanfragen bauen, um die Software im Bezug auf Erkennungsrate und Sachverstand zu schulen. Damit war Apple entgegen seiner normalen Geschäftspraktiken gezwungen, Siri 2011 als Beta auf den Markt loszulassen und damit ins kalte Wasser des noch eher kleinen eigenen Wissenspools zu stoßen. Was sie allerdings erstaunlich gut meisterte: Die Software zapfte zwar “nur” klassische Suchmaschinenanfragen an, wurde aber sukzessive erweitert, bereitete breitere Informationsquellen auf und konnte nach und nach auf Apps auf “ihrem” iPhone zugreifen. Von Anfang an spielte dabei ihre menschliche Anmutung eine große Rolle: Siri kontert Humor mit Humor – und empfiehlt so Mülldeponien in der Nähe, wenn man nach dem besten Weg fragt, eine Leiche zu verstecken. Siri kennt sich mit Popkultur aus und ist damit selbst auf die Frage nach dem Leben, dem Universum und dem ganzen Rest nicht um eine Antwort verlegen. Und Siri weiß, dass Sie nicht der einzige Sprachassistent auf dem Markt ist – hält sich aber auf Nachfrage für den besten. Zumindest auf US-amerikanischen Smartphones kann Siri mit dieser Einstellung die Spitze verteidigen – kein Wunder, bei dem ohnehin überproportional hohen iPhone-Anteil.

Komponenten eines Smart Home

Besonders im Smart-Home-Umfeld sind virtuelle Assistenten verbreitet. Bild: Pixabay.

OK Google, mach das Licht im Wohnzimmer an.

Bis Google im Tennis der Sprachassistenten seinen Return landen konnte, zogen noch ein paar Jahre ins Land. Die Spracheingabe hatte man ja bereits auf dem Kasten, mit Google Now feilte man seit 2012 an den Features für die umfassende Steuerung der in Android integrierten smarten Funktionen. Diesem Gerüst gab man mit dem Google Assistant 2016 schließlich eine eigene Stimme und platzierte sie in Form der Stand-alone-Lautsprecher Google Home direkt im Lebensmittelpunkt seiner Käufer. Mittlerweile umfasste die Technologie auch Möglichkeiten wie Echtzeit-Übersetzung per Spracheingabe, Bilderkennung, umfassende Smart-Home-Steuerung und viele weitere auf Big-Data- und Machine-Learning-Basis. Damit kämpfte sich Googles Lösung langsam aber sicher an die Spitze in Sachen Erkennungsrate und Funktionalität, konnte sich aber auch im Hinblick auf die Benutzerinteraktion immer weiter verbessern: Viele verschiedene Wege führen ans Ziel und auch eine Verkettung verschiedener Befehle im Konversationsstil ist zumindest auf Englisch kein Problem mehr. Trotzdem war der Einstand gerade in die Haushalte eher holprig. Geräte ab hundert Euro aufwärts erwiesen sich als Hemmschwelle, erst mit der Vorstellung von Geräten in unteren Preisklassen nahm Google (Home Mini) stetig Traktion auf. Die Marktführerschaft im Segment wird für etwa 2020 prognostiziert.

Wenn sich zwei Sprachassistenten streiten, freut sich der dritte...

In der Zwischenzeit stand die Konkurrenz alles andere als still: Bereits 2014 eroberte Amazon mit Alexa auf seiner Echo-Hardware die Wohnzimmer der Early Adopter und brachte damit in Sachen dedizierter Hardware einen echten Vorsprung zustande, mit dem man bis heute erfolgreich die Führung im Markt für smarte Lautsprecher hält. Im Gegensatz zu Google hatte man von Anfang an Einstiegshardware im Angebot. Fast noch wichtiger für den frühen Erfolg waren allerdings die starken Synergien mit Amazons Produkt- und Medienimperium. Filme, Musik, Hörbücher, Produktabos und viele weitere ließen sich direkt anfordern und so noch näher an den Nutzer bringen. Stärker als Siri brachte das verständlicherweise Daten- und Verbraucherschützer sowie Skeptiker auf den Plan – nicht nur lauschte die Hardware gefühlt überall mit (auch wenn das Lauschen bis zur Aktivierung durch Hotwords in der Praxis nur lokal stattfindet), sie reibt dem Nutzer den Konsum gleich verlockend hemmschwellenbefreit direkt vor die Nase.

...und wenn sich drei streiten, wird es unübersichtlich am Markt

Die warme Aura des Erfolgs rund um die smarten Assistenten lockte allerdings nicht nur die klassischen NASDAQ-100-Unternehmen an (wie Microsoft noch 2014 mit Cortana), auch Tech-Unternehmen in der östlichen Hemisphäre griffen langsam vermehrt nach einem Stückchen vom KI-Kuchen. Allen voran Samsung Anfang 2017 mit Bixby, bisher noch mit mäßigem Publikumserfolg, aber nach manchen Prognosen durchaus auf dem Vormarsch. Der russische Internetgigant Yandex stellte seine Alice-KI im dritten Quartal desselben Jahres vor, genau wie dessen chinesisches Pendant Alibaba seinen Assistenten AliGenie. Xiaomi, ebenfalls chinesisch, erst seit 2010 am Markt und eines der erfolgreichsten Tech-Start-ups überhaupt, stieg im April 2018 mit seiner Mi AI in den Ring. Generell gilt: Der klassische Weg der Hersteller ist, die Software erst auf bereits existierender, stromsparender Hardware (sprich: Smartphones) zu testen und zu optimieren, um Akzeptanz und Kompatibilität zu steigern, und diese perspektivisch dann auf dedizierter Hardware fest zu verankern. Die Liste der Fallbeispiele ließe sich noch eine Weile weiterführen, klar ist nur: So schnell wird der Siegeszug der smarten Assistenten nicht auf einen Prellbock treffen. Die Akzeptanz auf Konsumentenseite nimmt weiter zu, für Unternehmen sind die neuen Absatzmöglichkeiten verführerisch.

Damit wird man noch sprechen.

Und was hält die Zukunft für die Technologie noch bereit? Der unbequeme Elefant im Raum wird das Thema Security. Das gilt fürs IoT generell und damit auch für jede Sprachassistenzlösung, etwa bei der Anbindung externer Dienste mit Servern im Ausland und der Internetverbindung “nach draußen”, die mit jedem weiteren Gerät neue Angriffsvektoren eröffnet. Rein inhaltlich wird es da schon ambivalenter: Die Erkennungsraten sind bereits weit fortgeschritten, bei der Unterscheidung verschiedener Sprecher und damit einhergehender neuer Funktionalitäten ist noch Luft nach oben. Google legt hier bereits ordentlich vor: Der Assistant erkennt nach einem kurzen Training, wer mit ihm spricht und spielt personalisierte Inhalte aus, seien es Termine, besondere Musikwünsche oder andere Nachrichtenquellen. Auch im Hinblick auf die Kontextsensitivität und Autonomie wird sich mit Fortschritten in Machine Learning und neuronalen Netzen noch Einiges tun: So ist das Experiment Google Duplex bereits in der Lage, [Telefonate für seinen “Besitzer” zu führen[(https://www.youtube.com/watch?v=D5VN56jQMWM), um Tische zu reservieren, Haarschnitte zu terminieren und den Grund für eingehende Anrufe herauszufinden und weiterzugeben.

Alternativtext

Besonders im Smart-Home-Umfeld sind virtuelle Assistenten verbreitet. Bild: Pixabay.

Auch hier wird wieder klar, wie relevant die Kerntechnologie Spracherkennung für den Erfolg der smarten Assistenten ist. Deren Weiterentwicklung kann und wird nicht stillstehen, ermöglicht eine immer ausgefeiltere Erkennungsrate ja immer neue Use Cases und steigert damit die Verbreitung. Rezeptwünsche bei laut rauschender Dunstabzugshaube, neue Zielpunkte bei Tempo 180 auf Autobahn – am besten noch auf Schwäbisch – oder eine Telefonbestellung im nächsten Fernost-Imbiss: An Herausforderungen ist das Feld wahrlich nicht knapp. Und dennoch ist in vielen dieser Fälle bereits jetzt die Spracheingabe die effizienteste und oft auch einzige sinnvolle Interaktionsmöglichkeit mit der digitalen Assistenz, ihrer wie erläutert nicht geraden kurzen Forschungsgeschichte sei Dank.

Auch zukünftig auf der Überholspur

Generell kann man prognostizieren, dass viele Trends weiter miteinander verschmelzen. Etwa beim Thema “Connected Car” bietet sich eine sprachbasierte Bedienung an, locken die dafür erforderlichen Konzepte des frei Sprechens und eines Autos mit permanenter Internetverbindung für sich genommen doch niemanden mehr hinterm Ofen hervor. Android Auto und Apple Car Play machen es ansatzweise bereits vor. Ebenso scheint die Zusammenführung der Spracheingabe mit dem mittlerweile ausgereiften Bedienkonzept der Touchbedienung für fast alle Anbieter attraktiv zu sein, um noch mehr inhaltliche Optionen zu eröffnen – wie an smarten Bildschirmen von Google und Amazon, aber auch diversen Dritt-Herstellern zu sehen. Und zu guter Letzt muss man perspektivisch nicht mehr sein Echo, Homepod oder Home Mini als Vermittler bitten, das eigene Zuhause zu steuern – man befiehlt es seinen IoT-Geräten einfach selbst. Die Vision: SOCs, Mikrofone und Modems in jedem Toaster, jedem Kühlschrank, jeder Waschmaschine, ach was, jedem Gerät, das seinen state ändern kann – dank perfekter Spracherkennung werden sie es schon verstehen und idealerweise auch gleich eloquent darauf antworten. Und wo fängt diese Vision an? Bei einer sprechenden Mikrowelle.