Algorithmen trainieren: Was ist maschinelles Lernen?

Lernende Maschinen, die trainiert werden? Das klingt beinahe unheimlich. Ist es aber nicht: Hinter „maschinellem Lernen“ stecken Verfahren, die dafür sorgen sollen, dass Algorithmen besser funktionieren.

Lernen durch Anpassung an Daten

Die meisten Anwendungen Künstlicher Intelligenz (KI) arbeiten mit maschinellem Lernen. Programme zur Bild-, Sprach- und Texterkennung, Diagnose- und Übersetzungsprogramme sowie Programme, die Risiken einschätzen sollen oder Kaufwahrscheinlichkeiten von potenziellen Kunden berechnen, verwenden häufig dieses Verfahren.

Dabei verhalten sich die meisten Algorithmen immer genau gleich: Der gleiche Datenwert produziert das gleiche Ergebnis. Eine besondere Kategorie sind sogenannte lernende Algorithmen. Sie passen ihre Funktionsweise an die Daten an, die sie verarbeiten. Daher wird dieser Vorgang als maschinelles Lernen bezeichnet.

Ergebnisse optimieren: eine Frage des Trainings

Maschinelles Lernen soll die Ergebnisse eines Algorithmus’ zuverlässiger machen. Ein Aspekt des „Lernens“ ist die Frage, wie stark welche Daten gewichtet werden, wenn der Algorithmus ein Ergebnis berechnet. Dabei wird zum Beispiel festgelegt, dass bestimmte Daten oder Informationen einen höheren Einfluss auf das Ergebnis haben sollen als andere. Meistens übernehmen Menschen diese Aufgabe. Man könnte beispielsweise einen Algorithmus die Gewichtung zufällig verändern lassen und dann die Variante auswählen, die die besten Ergebnisse hervorbringt. Das maschinelle Lernen wird in vielen Fällen intensiv durch Menschen beeinflusst. Daher heißt es auch oft, dass die Algorithmen „trainiert“ werden.

Das Projekt R2D3 von Stephanie Yee und Tony Chu zeigt Ihnen in einer interaktiven Grafik, wie Menschen Algorithmen trainieren und welche Verfahren beim maschinellen Lernen eingesetzt werden.

Es geht also um eine Verbesserung der Ergebnisse, die ein Algorithmus hervorbringt. Diese Verfeinerung der Algorithmen erfolgt in manchen Fällen automatisiert. Das ist bei Vorgängen sinnvoll, die sich ständig wiederholen, wie zum Beispiel bei der Vorhersage von Kaufwahrscheinlichkeiten in Onlineshops.

Hierbei wird ein Algorithmus darauf „trainiert“, aus Daten möglichst treffsicher bestimmte Verhaltensmuster abzulesen, die auf einen Kauf hindeuten. Solche Daten sind beispielsweise die Verweildauer auf einer Produktseite, die Bewegungen des Mauszeigers oder die Anzahl der Aufrufe ähnlicher Produkte. Anschließend kann die KI selbst überprüfen, in welchen Fällen ein vorhergesagter Kauf auch tatsächlich eingetreten ist. Daraufhin passt sie die Gewichtung der erhobenen Daten für die nächste Wahrscheinlichkeitsberechnung an.

Schieflage: Grenzen des maschinellen Lernens

Für maschinelles Lernen spielt nicht nur die verfügbare Menge an Daten eine Rolle – auch ihre Qualität und Zusammensetzung sind von Bedeutung. Veraltete, ungenaue, falsche oder unpassende Daten beeinflussen die Wirkung eines KI-Programms. Die Verwendung von Datensätzen, die das Anwendungsgebiet unvollständig oder nur ausschnittartig abbilden, führen zu einer Verzerrung der Ergebnisse.

Wenn eine KI zum Beispiel das Auftreten von Krankheitssymptomen auswerten soll und nur mit den Daten einer bestimmten Bevölkerungsgruppe trainiert wird, analysiert sie möglicherweise an der Realität vorbei: Es ist möglich, dass die Ergebnisse für Gruppen mit anderen Lebensbedingungen kaum brauchbar sind. Deshalb sollten diejenigen, die maschinelles Lernen verwenden, genau einschätzen können, wann und wie die Algorithmen sinnvoll eingesetzt werden können. Dazu gehört auch, ihre Grenzen zu erkennen – vor allem dann, wenn es um ein so hohes Gut wie die Gesundheit von Menschen geht.