Welche Daten sammeln Sprachassistenten?

Sprachassistenten lauschen stetig ihrer Umgebung. Wann sie welche Daten sammeln und was damit geschieht.

Sprachassistenten gibt es nicht nur auf Smartphones und Computern, sie werden zunehmend in Geräte wie Lautsprecher und Spielzeuge eingebaut. Gestartet werden sie meist mit einem Aktivierungswort – je nach Anbieter und Einstellung lautet es zum Beispiel „Computer“, „Alexa“, „OK Google“ oder „Hey Cortana“. Das Mikrofon ist dauerhaft aktiv, um das jeweilige Wort zu erkennen. Laut den Herstellern werden keine Daten übertragen, solange es nicht gesprochen wird.

Nach dem Aktivierungswort zeichnet das System alle sprachlichen Äußerungen auf und verarbeitet sie über das Internet. Gespeichert werden in der Regel sowohl die Ausgangsdaten als auch die vom Assistenten gelieferten Ergebnisse. Beispiele sind die durch Spracheingaben ausgelösten Suchanfragen oder Webseiten, die als Antwort geöffnet werden.

Verknüpft werden sie mit zusätzlichen Angaben, den sogenannten Metadaten. Dazu gehört etwa die Uhrzeit der Sprachaufzeichnung oder die IP-Adresse, die ein Gerät im Datenverkehr identifizierbar macht. Die Anbieter wissen zudem, welche Hard- und Software dabei zum Einsatz kommt. Je nach Anbieter kommen weitere Daten hinzu, beispielsweise Diagnose- und Standortdaten. Die Geräte sind ständig online und können in der Regel jederzeit geortet werden.

Was machen Sprachassistenten mit den Daten?

Daten, die ein Sprachassistent erfasst, werden an die Server der Anbieter weitergeleitet. Dort werden sie gespeichert, automatisch analysiert und verarbeitet. Das Ergebnis wird an das Eingabegerät zurückgesendet. Zum Beispiel gibt der Assistent eine Sprachantwort aus, startet ein Musikstück oder löst eine andere Aktion auf dem Gerät aus. Mit den Daten werden zugleich die Fähigkeiten der Assistenzsysteme weiter trainiert.

Wie Assistentenzsysteme auf Künstliche Intelligenz zurückgreifen, lesen Sie im Beitrag: Was macht einen Sprachassistenten klug?

Die Datenschutzerklärungen der Anbieter begründen meist nur allgemein, zu welchem Zweck sie Nutzerdaten erfassen, und nennen etwa die Bereitstellung und die laufende Verbesserung ihrer Dienste. Apple beispielsweise sammelt die von Siri erfassten Daten, um die Nutzerinteressen besser kennenzulernen. Google will mit den Daten unter anderem die Suchergebnisse verbessern und zum Beispiel Verkehrsinformationen „zeitnah“ anbieten. Das Unternehmen hat seit geraumer Zeit einheitliche Regeln für seine Dienste eingeführt. Die ursprünglich auf den E-Mail-Dienst passende Formulierung, dass auch „Inhalte“ analysiert werden, dürfte auch für den Sprachassistenten gelten. Das soll vor allem der personalisierten Werbung sowie individuell zugeschnittenen Suchergebnissen dienen. Keiner der Hersteller gibt genau an, wie lange die Daten gespeichert werden; offenbar geschieht es unbefristet.

Die Bundesdatenschutzbeauftragte stellte kürzlich fest, dass bei Sprachassistenten „nicht eindeutig erkennbar“ sei, „wie und wo die aufgenommenen Daten verwendet und genutzt werden.“ Das Datenschutzrecht setzt zum rechtskonformen Einsatz unter anderem voraus, dass die Nutzerin oder der Nutzer seine Einwilligung in die Datenverarbeitung erteilt und vom Anbieter detailliert erfährt, wer, was, wie und wo mit seinen Daten macht.

Auf Daten, die auf US-Servern gespeichert werden, können auch US-Behörden zugreifen. Ende 2016 werteten Strafverfolger zum Beispiel Aufzeichnungen von Amazon Echo aus, um ein Gewaltverbrechen aufklären zu können. Theoretisch können Sprachassistenten auch von Dritten abgehört und manipuliert werden, wenn es gelingt, die Systeme zu überlisten. Beispielsweise, indem frühere Sprachbefehle abgefangen und neu zusammengestellt werden.

Welchen Einfluss haben Nutzerinnen und Nutzer?

Teilweise lassen sich die Daten, die beim Benutzen eines Sprachassistenten gesammelt werden, einsehen und löschen. Amazon etwa bietet die Option, den Verlauf der Datenaufzeichnungen in seiner Alexa-App und auf seiner Website einzusehen. Ähnlich wie in einem Browserverlauf lassen sich einzelne Einträge entfernen. Google zeigt die Sprachaufzeichnungen unter „Aktivitäten ansehen“ an. Dort können sie angehört und einzeln entfernt werden. Ähnlich ist es bei Microsofts Cortana. In den „Privacy“-Einstellungen des eigenen Kontos gibt es die Funktion „Notizbuch bearbeiten“. Wie weitgehend die Daten letztlich auch auf den Servern der Anbieter gelöscht werden, lässt sich kaum überprüfen.

Während Amazon, Google und Microsoft also die erfassten Daten direkt einer Nutzerin oder einem Nutzer zuordnen, setzt Apple auf ein anderes technisches Design. Dort werden alle Daten nicht der Benutzerkennung „Apple ID“, sondern einer zufällig generierten Kennziffer zugeschrieben. Wenn Siri samt Diktierfunktion deaktiviert und erneut aktiviert wird, wird die Kennung laut Datenschutzerklärung „zurückgesetzt“. Die mit der pseudonymen Kennziffer verbundenen Daten werden gelöscht und der Assistent fängt an, neu zu lernen. Somit ist die Zuordnung zu einem bestimmten Konto nicht auf direktem Weg möglich.

Was folgt daraus?

Mit den Sprachassistenten eröffnet sich für die IT-Unternehmen eine neue Schnittstelle, um stetig weitere Daten über die Nutzerinnen und Nutzer zu sammeln. Dazu gehören etwa Stimmprofile, die einen Sprecher identifizieren. Viele Informationen und Auswertungsmöglichkeiten liefern die Nutzerinnen und Nutzer allerdings bereits über die Daten, die ihr Smartphone generiert, auch wenn darauf kein Sprachassistent aktiv ist.

Die Bundesdatenschutzbeauftragte warnt vor einer „Dauerüberwachung“ durch die Assistenten und erinnert daran, dass Sprachbefehle nicht zwingend auf die Server der Anbieter übertragen werden müssen. Sie verlangt, dass die Daten „das Gerät nicht verlassen und nach kurzer Zeit (weniger als 15 Minuten) wieder überschrieben werden“ sollen. Umgesetzt wurde diese Forderung von den Herstellern bislang nicht.

Mehr über Risiken und Lösungsansätze beim Datenschutz im vernetzten Zuhause lesen Sie im Beitrag „Die unmerklichen Helfer und Datensammler“.
Weitere Sachinformationen zum vernetzten Zuhause finden Sie in der Beitragsübersicht.