Apprentissage par différence temporelle
L’apprentissage par différence temporelle (TD) désigne une classe de méthodes d’apprentissage par renforcement sans modèle qui apprennent par amorce à partir de l’estimation actuelle de la fonction de valeur.
Ces méthodes échantillonnent l'environnement, comme les méthodes de Monte Carlo, et effectuent des mises à jour sur la base des estimations actuelles, comme les méthodes de programmation dynamique.
Bien que les méthodes de Monte Carlo n’ajustent leurs estimations que lorsque le résultat final est connu, les méthodes TD ajustent les prédictions pour s’aligner ultérieurement sur des prévisions plus précises concernant l’avenir avant que le résultat final ne soit connu. Ceci est une forme de bootstrappin g, comme cela est illustré par l'exemple suivant:
"Supposons que vous souhaitiez prévoir l’eau pour samedi et que vous disposiez d’un modèle qui prédit le temps du samedi, en fonction du temps qu'il faisait chaque jour de la semaine. Dans le cas standard, attendez samedi puis ajustez tous vos modèles. Cependant, par exemple, vendredi, vous devriez avoir une assez bonne idée de la météo de samedi - et ainsi pouvoir changer, par exemple, le modèle de samedi avant l’arrivée de samedi. "
Les méthodes de différence temporelles sont liées au modèle de différence temporelle de l’apprentissage des animaux.