Was macht einen Sprachassistenten klug?

Sprachassistenten zeigen, wie Künstliche Intelligenz und maschinelles Lernen bereits in den Alltag eingezogen sind. Was steckt dahinter?

Wie wird morgen das Wetter? Wann fährt der Zug nach München? Digitale Sprachassistenten, die solche Fragen beantworten können, finden sich in immer mehr Smartphones, Lautsprechern und Laptops. Sie heißen Siri, Alexa, Cortana oder Google Assistant. Geht es nach den IT-Unternehmen, werden sie in Zukunft in immer mehr Geräten und Situationen anzutreffen sein.

Statt mit Tastatur oder Touchscreen bedient zu werden, hören sie auf etwas typisch Menschliches und extrem Komplexes: Sprache. Versuche, Maschinen das Hören und Sprechen beizubringen, sind nicht neu. Sie kamen bislang aber nur in wenigen, genau kontrollierten Situationen zum Einsatz, etwa in Telefonwarteschleifen. Dabei mussten sich eher die Nutzer dem stark begrenzten Horizont der Maschine anpassen als umgekehrt.

Wie Assistenten Sprache erkennen

In den letzten Jahren wurde die Technik so weiterentwickelt, dass digitale Assistenten viele alltägliche Äußerungen identifizieren können, selbst wenn im Hintergrund die Waschmaschine läuft. Dahinter stehen mehrere Entwicklungen. Damit ein digitaler Assistent zum Beispiel die Frage nach dem Wetter beantworten kann, kommen an unterschiedlichen Stellen Techniken zum Einsatz, die zur Künstlichen Intelligenz (KI) zählen. Die dazu nötige Rechenkraft wird über das Internet bereitgestellt oder steckt im Prozessor eines Smartphones.

Künstliche Intelligenz (KI)
KI ist der Versuch, Computern Dinge beizubringen, die Menschen bislang besser können. Kognitive Fähigkeiten wie das Lernen werden dabei durch Technik nachgeahmt. Das maschinelle Lernen ist ein Gebiet der KI. Ähnlich wie Wissen aus Erfahrung entstehen kann, sollen Computer aus Daten lernen, Muster oder Gesetzmäßigkeiten zu erkennen und Modelle zu entwickeln. Damit sollen sie auch solche Aufgaben lösen, die nicht von vornherein bekannt sind.
zum Glossar

Wird der Assistent gefragt: „Wie wird das Wetter?“, so geht es zunächst darum, im akustischen Signal einen solchen Satz zu erkennen. Diese Spracherkennung findet häufig auf den Servern der Anbieter statt, wohin die Assistenten meist alle Daten senden, die ihnen anvertraut werden. Dazu wird die Lautfolge in ihre kleinsten Bestandteile zerlegt und nach charakteristischen Merkmalen durchsucht. Schließlich berechnet das Programm stur die Wahrscheinlichkeit, mit der es sich um eine bestimmte Wortfolge handelt.

Der Ansatz des maschinellen Lernens besteht dabei nicht darin, den Assistenten vorab Regeln einzuprogrammieren – etwa diejenigen, wie Sprache funktioniert. Vielmehr setzt man ihnen zunächst große Datensammlungen vor, um sie zu trainieren. Maschinen lernen anders als Menschen, aber gemeinsam ist ihnen: Versuch und Irrtum macht klug. In den Datenbergen finden sie komplexe statistische Zusammenhänge, deren Struktur zum Beispiel den Regeln der Sprache folgt. Nach und nach gewinnen sie aus den Daten ein Modell. Dieser Ansatz reicht häufig bereits aus, um sie für alltägliche Aufgaben einsetzen zu können.

Kontext erkennen

Doch mit Spracherkennung allein ist es nicht getan. Um eine passende Antwort zu liefern, muss der Assistent erkennen, welche Absicht ein Nutzer mit dem geäußerten Satz verbindet. Sprache ist zudem vieldeutig: Ohne Kontext lässt sich ein Satz oft nicht deuten. Derzeit mobilisieren die IT-Unternehmen sämtliche Kräfte, den Assistenten solche Fähigkeiten beizubringen.

Ein Beispiel: Fragt jemand in Hamburg den Assistenten zuerst nach einem Zug nach München, anschließend nach dem Wetter, so geht es womöglich um das Wetter in München. Um Allgemeinwissen nachzuvollziehen, werden die Assistenten mit großen Faktendatenbanken verknüpft, etwa Googles „Knowledge Graph“ oder Microsofts „Satori Knowledge“. Auch die Nutzerinnen und Nutzer liefern den Anbietern stetig Daten zurück, mit denen die Assistenten dazulernen.

Intelligenz bleibt beschränkt

Trotz aller technischen Entwicklung bleiben die Fähigkeiten der Assistenten auf wenige, genau abgegrenzte Bereiche und Lebensaspekte beschränkt. Das gilt auch für die Entwicklung der KI insgesamt. Literatur und Kino haben schon lange eine allgemeine KI erdacht, die beliebige menschliche Aufgaben übernehmen kann. Immer wieder schien es manchen Forschern, als stünde die Informatik kurz vorm Durchbruch zu einer solchen Superintelligenz. Doch immer wieder stellte sich heraus: Die Prognose fußte auf falschen Annahmen, war zu optimistisch.

Je mehr die digitalen Assistenten allerdings über ihren Besitzer wissen, desto eher können sie selbsttätig aktiv werden. Sie warnen dann etwa vor Stau auf dem Weg zur Arbeit, noch bevor man sich auf den Weg gemacht hat. Eine Suchmaschine zu bedienen, könnte bald altmodisch erscheinen.

Womöglich sind die digitalen Assistenten daher nur Vorboten einer Entwicklung, in der die künstliche der menschlichen Intelligenz nicht gegenübersteht, sondern die Fähigkeiten und Sinne von Menschen erweitert, wie es Werkzeuge und Medien schon immer getan haben. Der Preis ist, dass lernende Systeme uns umso besser assistieren, je mehr sie auch permanente Datensammler sind.

Welche Daten die digitalen Assistenten erheben und wozu sie verwendet werden, erläutert der Beitrag „Welche Daten sammeln Sprachassistenten“.

Weitere Sachinformationen zum vernetzten Zuhause finden Sie in der Beitragsübersicht.