Bestärkendes Lernen ist das vierte der vier Modelle für maschinelles Lernen. Beim überwachten Lernen erhält die Maschine den Antwortschlüssel und lernt, indem sie Korrelationen zwischen allen richtigen Ergebnissen findet. Das Modell für bestärkendes Lernen enthält keinen Antwortschlüssel, sondern gibt eine Reihe von zulässigen Aktionen, Regeln und potenziellen Endzuständen vor. Wenn das gewünschte Ziel des Algorithmus fest oder binär ist, können Maschinen anhand von Beispielen lernen. In Fällen, in denen das gewünschte Ergebnis veränderbar ist, muss das System jedoch durch Erfahrung und Belohnung lernen. Bei den Modellen für bestärkendes Lernen ist die „Belohnung“ numerisch und in den Algorithmus als etwas programmiert, das das System „erfassen“ möchte.
In vielerlei Hinsicht ist dieses Modell vergleichbar damit, jemandem das Schachspielen beizubringen. Sicherlich wäre es unmöglich, ihnen jeden möglichen Schritt zu zeigen. Stattdessen erklären Sie die Regeln, und die Lernenden verbessern ihre Fähigkeiten durch Übung. Die Belohnung besteht nicht nur darin, das Spiel zu gewinnen, sondern auch die Figuren des Gegners zu erobern. Zu den Anwendungen für bestärkendes Lernen gehören automatisierte Preisangebote für Käufer von Online-Werbung, die Entwicklung von Computerspielen und der Börsenhandel mit hohen Einsätzen.